Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Vergeleken modellen

Samenvatting

Benchmarkvergelijking Claude Sonnet 4.6 vs Claude Sonnet 5 vs Claude Opus 4.8 vs GLM 5.2Claude Opus 4.8 leidt op Score met 8.8. Claude Sonnet 4.6 leidt op Betrouwbaarheid met 10.0. GLM 5.2 heeft de laagste Totale kosten met $0.220. Claude Opus 4.8 is het snelst met 9.72s.

Aanbevolen model: GLM 5.2 - De score blijft dicht bij de beste score hier (8.7 vs 8.8) en het kost ongeveer 4.7x minder dan de andere modellen in deze vergelijking.

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-06-30

Metriek Claude Sonnet 4.6 Claude Sonnet 4.6 medium Releasedatum: 2026-02-17 Claude Sonnet 5 Claude Sonnet 5 medium Releasedatum: 2026-06-30 Claude Opus 4.8 Claude Opus 4.8 medium Releasedatum: 2026-05-28 GLM 5.2 GLM 5.2 medium Releasedatum: 2026-06-17
Score 7.8 7.9 8.8 8.7
Rang #32 #30 #12 #14
Betrouwbaarheid 10.0 10.0 10.0 9.5
Consistentie 9.1 9.0 9.6 8.4
Correcte tests
Slaagpercentage per poging 65.1% 79.4% 84.1% 84.1%
Instabiele tests 2 3 1 4
Totaal runs 63 63 63 63
Kosten per resultaat 10.904 3.662 6.512 2.159
Totale kosten $1.418 $0.550 $1.107 $0.220
Invoerprijs $3.000 / 1M $2.000 / 1M $5.000 / 1M $0.930 / 1M
Uitvoerprijs $15.000 / 1M $10.000 / 1M $25.000 / 1M $3.000 / 1M
Totaal aantal invoer-tokens 49,112 67,416 61,007 37,199
Uitvoer-tokens 54,703 34,012 26,495 12,261
Redeneer-tokens 29,970 7,673 5,901 49,500
Responstijd (gem.) 17.06s 9.94s 9.72s 23.28s
Responstijd (max) 46.35s 56.94s 38.03s 101.36s
Responstijd (totaal) 221.83s 208.71s 204.19s 488.94s

Generatie-showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#32 Claude Sonnet 4.6

medium
Ongeldige SVG
Kosten
$0.000
Tijd
300.0s
Tokens
0 tok

#30 Claude Sonnet 5

medium
Kosten
$0.007
Tijd
6.4s
Tokens
832 tok

#12 Claude Opus 4.8

medium
Kosten
$0.057
Tijd
23.1s
Tokens
2,412 tok

#14 GLM 5.2

medium
Kosten
$0.041
Tijd
195.8s
Tokens
9,287 tok

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 6.5 10.0 50.0% 0 2.98s 789 1,046 1,093
Claude Sonnet 5 10.0 10.0 100.0% 0 3.80s 834 1,220 446
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 834 1,179 478
GLM 5.2 10.0 10.0 100.0% 0 5.89s 639 497 2,634
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 5.7 6.6 44.4% 1 33.29s 6,995 16,089 3,686
Claude Sonnet 5 9.0 7.9 88.9% 1 17.28s 10,590 13,153 2,379
Claude Opus 4.8 10.0 10.0 100.0% 0 15.33s 10,590 9,945 1,381
GLM 5.2 8.2 7.2 88.9% 1 40.96s 7,317 1,475 17,123
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 10.0 10.0 100.0% 0 46.35s 18,351 5,871 3,962
Claude Sonnet 5 4.5 2.1 66.7% 1 37.01s 29,394 4,848 2,170
Claude Opus 4.8 9.8 10.0 100.0% 0 38.03s 23,561 5,260 1,588
GLM 5.2 10.0 10.0 100.0% 0 51.96s 12,696 458 4,531
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 10.0 10.0 100.0% 0 13.90s 8,676 649 742
Claude Sonnet 5 10.0 10.0 100.0% 0 3.16s 10,503 312 0
Claude Opus 4.8 7.1 5.6 83.3% 1 12.29s 10,503 481 312
GLM 5.2 10.0 10.0 100.0% 0 13.44s 7,149 348 2,345
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 2.9 7.2 11.1% 1 0ms 471 25,790 16,919
Claude Sonnet 5 7.7 10.0 66.7% 0 20.38s 975 12,140 1,994
Claude Opus 4.8 5.3 10.0 33.3% 0 14.59s 975 7,477 900
GLM 5.2 4.1 4.4 44.5% 2 45.47s 551 8,188 11,606
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.94s 564 256 433
Claude Sonnet 5 4.8 3.2 33.3% 1 4.32s 708 264 0
Claude Opus 4.8 10.0 10.0 100.0% 0 2.46s 708 237 0
GLM 5.2 10.0 10.0 100.0% 0 17.39s 498 54 1,842
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 10.0 10.0 100.0% 0 2.61s 792 318 552
Claude Sonnet 5 9.9 10.0 100.0% 0 3.10s 909 318 269
Claude Opus 4.8 10.0 10.0 100.0% 0 3.32s 909 373 320
GLM 5.2 9.9 10.0 100.0% 0 7.90s 678 94 1,518
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 10.0 10.0 100.0% 0 5.31s 816 592 646
Claude Sonnet 5 7.7 10.0 66.7% 0 2.98s 894 407 121
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 894 791 483
GLM 5.2 8.2 7.2 88.9% 1 13.13s 672 536 4,822
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 10.0 10.0 100.0% 0 7.48s 11,454 655 351
Claude Sonnet 5 10.0 10.0 100.0% 0 10.70s 12,351 433 90
Claude Opus 4.8 10.0 10.0 100.0% 0 8.96s 11,775 301 225
GLM 5.2 10.0 10.0 100.0% 0 20.41s 6,861 230 550
Algemene kennis Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Invoer-tokens Uitvoer-tokens Redeneer-tokens
Claude Sonnet 4.6 3.0 10.0 0.0% 0 30.09s 204 3,437 1,586
Claude Sonnet 5 3.0 10.0 0.0% 0 7.06s 258 917 204
Claude Opus 4.8 3.0 10.0 0.0% 0 6.14s 258 451 214
GLM 5.2 3.0 10.0 0.0% 0 34.25s 138 381 2,529

Snelle vergelijking

Vergelijkingspaar wisselen