Navigation
AI BENCHY
Your ad here

AI BENCHY Compare

Verglichene Modelle

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-01

Metrik Grok 4.20 Grok 4.20 medium Veröffentlichung: 2026-03-31 Grok 4.20 Beta Grok 4.20 Beta medium Veröffentlichung: 2026-03-12 Grok 4.3 Grok 4.3 medium Veröffentlichung: 2026-05-01
Punktzahl 7.0 8.2 8.2
Rang #63 #22 #20
Zuverlässigkeit k. A. k. A. 10.0
Konsistenz 7.8 9.1 8.6
Korrekte Tests
Erfolgsquote pro Versuch 66.7% 79.6% 81.5%
Instabile Tests 5 2 3
Gesamtläufe 54 52 54
Kosten pro Ergebnis 8.252 4.864 3.974
Gesamtkosten $0.743 $0.633 $0.517
Eingabepreis $2.000 / 1M $0.000 / 1M $1.250 / 1M
Ausgabepreis $6.000 / 1M $0.000 / 1M $2.500 / 1M
Ausgabe-Token 1,744 1,568 1,223
Denk-Token 109,882 91,909 187,047
Antwortzeit (Durchschnitt) 10.33s 9.81s 48.63s
Antwortzeit (Maximum) 29.87s 31.36s 216.69s
Antwortzeit (Gesamt) 185.87s 176.62s 875.27s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 8.2 7.9 83.3% 1 3.36s 280 8,476
Grok 4.20 Beta 8.7 7.9 91.7% 1 3.16s 268 7,583
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Programmierung Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 4.3 1.1 66.7% 1 24.33s 250 12,804
Grok 4.20 Beta 10.0 10.0 100.0% 0 31.36s 81 3,987
Grok 4.3 10.0 10.0 100.0% 0 45.72s 284 9,659
Kombiniert Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 10.0 10.0 100.0% 0 17.40s 232 9,556
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Datenanalyse und -extraktion Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 10.0 10.0 100.0% 0 4.17s 180 5,333
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.01s 180 5,281
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Domänenspezifisch Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 5.3 10.0 33.3% 0 27.03s 375 49,339
Grok 4.20 Beta 5.3 10.0 33.3% 0 21.33s 251 40,255
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Allgemeine Intelligenz Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 5.8 2.8 66.7% 1 7.09s 47 4,252
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Befolgung von Anweisungen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 7.3 6.0 83.3% 1 4.42s 40 5,474
Grok 4.20 Beta 9.8 10.0 100.0% 0 4.97s 57 7,107
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Rätsellösen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 6.4 7.7 55.6% 1 3.89s 143 8,028
Grok 4.20 Beta 8.2 7.2 88.9% 1 3.85s 249 6,660
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Werkzeugaufrufe Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Antwortzeit (Durchschnitt) Ausgabe-Token Denk-Token
Grok 4.20 3.0 10.0 0.0% 0 13.68s 197 6,620
Grok 4.20 Beta 3.0 10.0 0.0% 0 12.39s 183 5,384
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615

Schnellvergleich

Vergleichspaar wechseln