Navigation
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Verglichene Modelle

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-01

Metrik Claude Opus 4.6 Claude Opus 4.6 medium Veröffentlichung: 2026-02-05 Claude Sonnet 4.6 Claude Sonnet 4.6 medium Veröffentlichung: 2026-02-17 GPT-5.3-Codex GPT-5.3-Codex medium Veröffentlichung: 2026-02-05 Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Veröffentlichung: 2026-02-19
Punktzahl 7.6 8.0 8.6 9.6
Rang #50 #37 #13 #2
Zuverlässigkeit k. A. k. A. k. A. k. A.
Konsistenz 9.1 9.5 8.7 10.0
Korrekte Tests
Erfolgsquote pro Versuch 70.4% 74.1% 83.3% 94.4%
Instabile Tests 2 1 3 0
Gesamtläufe 54 54 54 54
Kosten pro Ergebnis 12.047 8.930 4.405 3.400
Gesamtkosten $1.446 $1.161 $0.573 $0.578
Eingabepreis $5.000 / 1M $3.000 / 1M $1.750 / 1M $2.000 / 1M
Ausgabepreis $25.000 / 1M $15.000 / 1M $14.000 / 1M $12.000 / 1M
Ausgabe-Token 29,829 42,068 2,279 1,932
Denk-Token 18,938 26,784 35,179 40,542
Antwortzeit (Durchschnitt) 21.08s 12.66s 15.38s 15.96s
Antwortzeit (Maximum) 83.40s 46.35s 100.93s 40.61s
Antwortzeit (Gesamt) 231.84s 126.62s 276.91s 175.52s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 6.4 5.8 66.7% 2 7.45s 986 1,071
Claude Sonnet 4.6 6.5 10.0 50.0% 0 2.98s 1,046 1,093
GPT-5.3-Codex 8.7 7.9 91.7% 1 4.16s 240 1,722
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 112 3,218
Programmierung Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 10.0 10.0 100.0% 0 23.11s 3,486 1,504
Claude Sonnet 4.6 10.0 10.0 100.0% 0 35.76s 6,894 2,097
GPT-5.3-Codex 10.0 10.0 100.0% 0 8.95s 491 1,530
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 19.88s 405 4,201
Kombiniert Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Claude Sonnet 4.6 10.0 10.0 100.0% 0 46.35s 5,871 3,962
GPT-5.3-Codex 10.0 10.0 100.0% 0 19.56s 364 2,731
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 432 9,281
Datenanalyse und -extraktion Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 10.0 10.0 100.0% 0 7.37s 691 757
Claude Sonnet 4.6 10.0 10.0 100.0% 0 13.90s 649 742
GPT-5.3-Codex 10.0 10.0 100.0% 0 3.07s 234 728
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 279 3,904
Domänenspezifisch Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 3.0 10.0 0.0% 0 83.40s 14,642 8,687
Claude Sonnet 4.6 2.9 7.2 11.1% 1 0ms 25,790 16,919
GPT-5.3-Codex 5.9 7.2 55.6% 1 64.31s 64 25,308
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 18 12,424
Allgemeine Intelligenz Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 188 292
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.94s 256 433
GPT-5.3-Codex 4.6 10.0 0.0% 0 4.87s 187 331
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Befolgung von Anweisungen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Claude Sonnet 4.6 10.0 10.0 100.0% 0 2.61s 318 552
GPT-5.3-Codex 10.0 10.0 100.0% 0 3.04s 93 693
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Rätsellösen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 7.7 10.0 66.7% 0 4.60s 531 637
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.80s 589 635
GPT-5.3-Codex 9.0 7.9 88.9% 1 5.12s 352 1,644
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Werkzeugaufrufe Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Claude Sonnet 4.6 10.0 10.0 100.0% 0 7.48s 655 351
GPT-5.3-Codex 10.0 10.0 100.0% 0 6.37s 254 492
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982

Schnellvergleich

Vergleichspaar wechseln