Navigatie
AI BENCHY
Advertise here

AI BENCHY Compare

Vergeleken modellen

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-26

Metriek GLM 5 GLM 5 medium Releasedatum: 2026-02-12 GLM 5.1 GLM 5.1 medium Releasedatum: 2026-04-07 GLM 5 GLM 5 none Releasedatum: 2026-02-12 GLM 5.1 GLM 5.1 none Releasedatum: 2026-04-07
Score 8.2 7.4 6.3 5.8
Rang #18 #54 #91 #102
Betrouwbaarheid 10.0 3.3 10.0 10.0
Consistentie 8.4 8.3 9.7 8.4
Correcte tests
Slaagpercentage per poging 81.7% 71.7% 46.7% 43.3%
Instabiele tests 4 4 1 4
Totaal runs 98 98 98 136
Kosten per resultaat 1.818 2.890 0.295 0.936
Totale kosten $0.255 $0.347 $0.027 $0.066
Invoerprijs $0.600 / 1M $0.980 / 1M $0.600 / 1M $0.980 / 1M
Uitvoerprijs $1.920 / 1M $3.080 / 1M $1.920 / 1M $3.080 / 1M
Uitvoer-tokens 21,596 13,107 3,581 4,698
Redeneer-tokens 105,424 88,661 0 0
Responstijd (gem.) 32.67s 33.45s 3.95s 4.20s
Responstijd (max) 99.85s 172.60s 11.07s 32.57s
Responstijd (totaal) 392.01s 635.63s 51.38s 83.95s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
GLM 5 4.8 10.0 25.0% 0 2.37s 275 0
GLM 5.1 4.0 6.3 25.0% 2 2.11s 305 0
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 89.47s 2,985 45,706
GLM 5.1 4.7 1.6 66.7% 2 145.56s 4,727 34,384
GLM 5 4.6 6.8 16.7% 1 5.18s 424 0
GLM 5.1 4.3 9.5 0.0% 0 6.33s 519 0
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
GLM 5 3.0 10.0 0.0% 0 4.98s 406 0
GLM 5.1 2.8 2.1 33.3% 1 32.57s 2,129 0
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
GLM 5 10.0 10.0 100.0% 0 5.78s 203 0
GLM 5.1 10.0 10.0 100.0% 0 1.08s 204 0
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
GLM 5 3.0 10.0 0.0% 0 2.24s 19 0
GLM 5.1 2.9 7.2 11.1% 1 1.99s 24 0
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
GLM 5.1 5.0 10.0 0.0% 0 790ms 39 0
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
GLM 5.1 9.8 10.0 100.0% 0 1.98s 750 0
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 11.33s 71 13,728
GLM 5.1 8.2 7.2 88.9% 1 31.64s 2,531 22,412
GLM 5 7.7 10.0 66.7% 0 1.91s 1,857 0
GLM 5.1 7.7 10.0 66.7% 0 1.45s 417 0
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0
GLM 5.1 10.0 10.0 100.0% 0 10.68s 300 0
Algemene kennis Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 3.0 10.0 0.0% 0 67.37s 401 12,450
GLM 5.1 3.0 10.0 0.0% 0 29.40s 82 2,179
GLM 5 3.0 10.0 0.0% 0 3.62s 13 0
GLM 5.1 3.0 10.0 0.0% 0 2.34s 11 0

Snelle vergelijking

Vergelijkingspaar wisselen