Navigatie
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.2 vs xAI: Grok 4.20

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-04-02

Metriek GPT-5.2 GPT-5.2 medium Releasedatum: 2025-12-11 Grok 4.20 Grok 4.20 medium Releasedatum: 2026-03-31
Score 7.3 7.1
Rang #36 #40
Consistentie 8.0 8.2
Correcte tests
Slaagpercentage per poging 70.6% 66.7%
Instabiele tests 4 4
Totaal runs 51 51
Kosten per resultaat 3.131 7.358
Totale kosten $0.314 $0.663
Invoerprijs $1.750 / 1M $2.000 / 1M
Uitvoerprijs $14.000 / 1M $6.000 / 1M
Uitvoer-tokens 2,238 1,494
Redeneer-tokens 16,811 97,078
Responstijd (gem.) 13.93s 9.50s
Responstijd (max) 77.80s 29.87s
Responstijd (totaal) 139.29s 161.54s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 6.5 8.0 58.3% 1 7.81s 567 2,002
Grok 4.20 8.2 7.9 83.3% 1 3.36s 280 8,476
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 10.0 10.0 100.0% 0 14.06s 291 1,757
Grok 4.20 10.0 10.0 100.0% 0 17.40s 232 9,556
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 10.0 10.0 100.0% 0 3.15s 234 420
Grok 4.20 10.0 10.0 100.0% 0 4.17s 180 5,333
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 5.9 7.2 55.6% 1 77.80s 42 10,342
Grok 4.20 5.3 10.0 33.3% 0 27.03s 375 49,339
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 3.7 9.7 0.0% 0 4.32s 162 269
Grok 4.20 5.8 2.8 66.7% 1 7.09s 47 4,252
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 9.9 10.0 100.0% 0 3.12s 94 614
Grok 4.20 7.3 5.9 83.3% 1 4.42s 40 5,474
Puzzle Solving Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 7.7 7.3 77.8% 1 5.47s 609 938
Grok 4.20 6.4 7.7 55.6% 1 3.89s 143 8,028
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.2 4.7 1.6 66.7% 1 10.30s 239 469
Grok 4.20 3.0 10.0 0.0% 0 13.68s 197 6,620

Snelle vergelijking

Vergelijkingspaar wisselen