Navigatie
AI BENCHY
Your ad here

AI BENCHY Compare

Vergeleken modellen

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-03-12

Metriek GPT-5.3 Chat GPT-5.3 Chat none Releasedatum: 2026-03-03 GPT-5.4 GPT-5.4 none Releasedatum: 2026-03-05 GPT-5.4 GPT-5.4 medium Releasedatum: 2026-03-05
Rang #20 #51 #10
Gem. score 7.3 4.5 8.0
Consistentie 8.5 8.9 8.5
Kosten per resultaat 3.163 1.562 6.601
Totale kosten $0.317 $0.094 $0.793
Correcte tests
Slaagpercentage per poging 70.8% 41.7% 83.3%
Instabiele tests 3 2 3
Totaal runs 48 48 48
Uitvoer-tokens 19,272 1,819 1,756
Redeneer-tokens 0 0 46,642
Responstijd (gem.) 5.96s 1.48s 20.05s
Responstijd (max) 18.33s 2.89s 100.41s
Responstijd (totaal) 95.30s 23.64s 320.87s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Gem. score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Gem. score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
GPT-5.4 10.0 7.3 11.1% 1 1.41s 388 0
GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
GPT-5.4 10.0 10.0 0.0% 0 2.89s 291 0
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
GPT-5.4 9.9 10.0 100.0% 0 1.04s 222 0
GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
GPT-5.4 4.0 7.2 44.4% 1 1.07s 50 0
GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 4.0 10.0 0.0% 0 1.99s 319 0
GPT-5.4 3.0 9.9 0.0% 0 1.78s 184 0
GPT-5.4 5.0 3.1 33.3% 1 4.92s 145 321
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
GPT-5.4 5.5 10.0 50.0% 0 1.07s 81 0
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
GPT-5.4 4.0 9.8 33.3% 0 1.52s 357 0
GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0
GPT-5.4 10.0 10.0 100.0% 0 2.75s 246 0
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

Snelle vergelijking

Vergelijkingspaar wisselen