Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

xAI: Grok Build 0.1 vs Z.ai: GLM 5.1

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-22

Metriek Grok Build 0.1 Grok Build 0.1 medium Releasedatum: 2026-05-21 GLM 5.1 GLM 5.1 medium Releasedatum: 2026-04-07
Score 7.6 7.4
Rang #45 #51
Betrouwbaarheid 10.0 3.3
Consistentie 8.5 8.3
Correcte tests
Slaagpercentage per poging 70.0% 71.7%
Instabiele tests 4 4
Totaal runs 60 60
Kosten per resultaat 5.271 2.379
Totale kosten $0.633 $0.286
Invoerprijs $1.000 / 1M $0.980 / 1M
Uitvoerprijs $2.000 / 1M $3.080 / 1M
Uitvoer-tokens 2,167 11,475
Redeneer-tokens 293,436 71,876
Responstijd (gem.) 26.36s 32.22s
Responstijd (max) 103.89s 172.60s
Responstijd (totaal) 527.19s 612.25s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 10.0 10.0 100.0% 0 5.46s 195 9,825
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 5.3 2.9 50.0% 2 67.43s 574 87,798
GLM 5.1 4.7 1.6 66.7% 2 145.56s 4,727 34,384
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 10.0 10.0 100.0% 0 30.81s 231 18,779
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 10.0 10.0 100.0% 0 7.76s 180 10,343
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 5.3 10.0 33.3% 0 77.75s 501 111,807
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 3.8 2.5 33.3% 1 10.14s 78 5,386
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 9.8 10.0 100.0% 0 9.62s 57 12,436
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 6.2 7.5 55.6% 1 8.67s 161 15,476
GLM 5.1 8.2 7.2 88.9% 1 23.85s 899 5,627
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 10.0 10.0 100.0% 0 9.40s 180 5,319
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
Algemene kennis Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
Grok Build 0.1 3.0 10.0 0.0% 0 26.07s 10 16,267
GLM 5.1 3.0 10.0 0.0% 0 29.40s 82 2,179

Snelle vergelijking

Vergelijkingspaar wisselen