Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Vergeleken modellen

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-04-24

Metriek GPT-5.5 GPT-5.5 medium Releasedatum: 2026-04-24 GPT-5.4 GPT-5.4 medium Releasedatum: 2026-03-05 Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Releasedatum: 2026-02-19 Claude Opus 4.7 Claude Opus 4.7 medium Releasedatum: 2026-04-16
Score 9.0 8.2 9.6 9.2
Rang #5 #18 #2 #3
Betrouwbaarheid n.v.t. n.v.t. n.v.t. n.v.t.
Consistentie 9.2 8.7 10.0 10.0
Correcte tests
Slaagpercentage per poging 87.0% 79.6% 94.4% 88.9%
Instabiele tests 2 3 0 0
Totaal runs 54 54 54 54
Kosten per resultaat 19.226 6.399 3.400 2.790
Totale kosten $2.884 $0.832 $0.578 $0.447
Invoerprijs $5.000 / 1M $2.500 / 1M $2.000 / 1M $5.000 / 1M
Uitvoerprijs $30.000 / 1M $15.000 / 1M $12.000 / 1M $25.000 / 1M
Uitvoer-tokens 1,920 2,169 1,932 5,375
Redeneer-tokens 89,632 48,732 40,542 1,341
Responstijd (gem.) 32.75s 18.63s 15.96s 3.53s
Responstijd (max) 332.10s 100.41s 40.61s 21.45s
Responstijd (totaal) 589.59s 335.26s 175.52s 60.03s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 4.66s 250 1,335
GPT-5.4 8.3 10.0 75.0% 0 4.11s 240 1,511
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 112 3,218
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 9.09s 318 1,391
GPT-5.4 10.0 10.0 100.0% 0 13.03s 389 2,045
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 19.88s 405 4,201
Claude Opus 4.7 10.0 10.0 100.0% 0 6.41s 1,141 257
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 19.29s 312 2,841
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 432 9,281
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 4.18s 234 593
GPT-5.4 10.0 10.0 100.0% 0 5.32s 234 804
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 279 3,904
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 5.3 7.2 44.4% 1 164.14s 67 79,625
GPT-5.4 5.3 7.2 44.4% 1 74.27s 61 34,748
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 18 12,424
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 4.16s 138 223
GPT-5.4 4.7 3.1 33.3% 1 4.92s 145 321
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 3.36s 93 538
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 8.6 7.9 77.8% 1 6.78s 250 2,254
GPT-5.4 8.2 7.2 88.9% 1 9.13s 442 3,832
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Claude Opus 4.7 10.0 10.0 100.0% 0 2.51s 399 0
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GPT-5.5 10.0 10.0 100.0% 0 10.57s 258 832
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0

Snelle vergelijking

Vergelijkingspaar wisselen