Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Vergeleken modellen

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-04-07

Metriek GLM 5 GLM 5 medium Releasedatum: 2026-02-12 GLM 5.1 GLM 5.1 medium Releasedatum: 2026-04-07 GLM 5 GLM 5 none Releasedatum: 2026-02-12 GLM 5.1 GLM 5.1 none Releasedatum: 2026-04-07
Score 8.3 8.0 6.7 5.6
Rang #15 #23 #50 #67
Consistentie 8.1 9.0 10.0 8.2
Correcte tests
Slaagpercentage per poging 84.3% 76.5% 52.9% 39.2%
Instabiele tests 4 2 0 4
Totaal runs 51 51 51 51
Kosten per resultaat 0.896 1.270 0.201 1.000
Totale kosten $0.108 $0.153 $0.019 $0.050
Invoerprijs $0.720 / 1M $1.000 / 1M $0.720 / 1M $1.000 / 1M
Uitvoerprijs $2.300 / 1M $3.200 / 1M $2.300 / 1M $3.200 / 1M
Uitvoer-tokens 19,833 6,666 1,551 3,219
Redeneer-tokens 38,523 35,313 0 0
Responstijd (gem.) 17.15s 18.23s 3.77s 4.01s
Responstijd (max) 28.96s 43.11s 11.07s 32.57s
Responstijd (totaal) 154.32s 291.73s 37.66s 68.23s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
GLM 5 4.8 10.0 25.0% 0 2.37s 275 0
GLM 5.1 4.0 6.3 25.0% 2 2.11s 305 0
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
GLM 5 3.0 10.0 0.0% 0 4.98s 406 0
GLM 5.1 2.8 2.1 33.3% 1 32.57s 2,129 0
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
GLM 5 10.0 10.0 100.0% 0 5.78s 203 0
GLM 5.1 10.0 10.0 100.0% 0 1.08s 204 0
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
GLM 5 3.0 10.0 0.0% 0 2.24s 19 0
GLM 5.1 2.9 7.2 11.1% 1 1.99s 24 0
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
GLM 5.1 5.0 10.0 0.0% 0 790ms 39 0
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
GLM 5.1 8.3 10.0 50.0% 0 1.58s 66 0
Puzzle Solving Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 15.64s 1,694 4,983
GLM 5.1 8.2 7.2 88.9% 1 23.85s 899 5,627
GLM 5 7.7 10.0 66.7% 0 2.05s 264 0
GLM 5.1 5.7 10.0 33.3% 0 1.48s 152 0
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0
GLM 5.1 10.0 10.0 100.0% 0 10.68s 300 0

Snelle vergelijking

Vergelijkingspaar wisselen