Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs xAI: Grok 4.20

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-10

Metriek DeepSeek V3.2 DeepSeek V3.2 medium Releasedatum: 2025-12-01 Grok 4.20 Grok 4.20 medium Releasedatum: 2026-03-31
Score 7.2 6.9
Rang #61 #68
Betrouwbaarheid 10.0 10.0
Consistentie 7.5 8.3
Correcte tests
Slaagpercentage per poging 72.8% 63.2%
Instabiele tests 6 4
Totaal runs 57 57
Kosten per resultaat 0.278 7.559
Totale kosten $0.031 $0.756
Invoerprijs $0.252 / 1M $1.250 / 1M
Uitvoerprijs $0.378 / 1M $2.500 / 1M
Uitvoer-tokens 7,035 1,784
Redeneer-tokens 53,765 128,233
Responstijd (gem.) 46.06s 14.53s
Responstijd (max) 180.92s 63.48s
Responstijd (totaal) 875.23s 276.06s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 9.2 10.0 100.0% 0 24.23s 3,247 6,953
Grok 4.20 8.2 7.9 83.3% 1 3.95s 287 8,312
Programmeren Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 4.7 1.6 66.7% 1 180.92s 626 6,792
Grok 4.20 4.3 1.1 66.7% 1 24.33s 250 12,804
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 10.0 10.0 100.0% 0 93.11s 571 6,296
Grok 4.20 10.0 10.0 100.0% 0 17.40s 232 9,556
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 10.0 10.0 100.0% 0 36.09s 207 7,693
Grok 4.20 10.0 10.0 100.0% 0 4.17s 180 5,333
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 2.9 4.4 22.2% 2 24.27s 21 6,838
Grok 4.20 5.3 10.0 33.3% 0 27.03s 375 49,339
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 3.8 2.5 50.0% 1 58.29s 49 2,189
Grok 4.20 3.9 2.6 33.3% 1 24.48s 65 6,440
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 10.0 10.0 100.0% 0 35.78s 1,397 2,845
Grok 4.20 7.3 6.0 83.3% 1 4.42s 40 5,474
Puzzeloplossing Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 6.7 5.0 66.7% 2 36.87s 390 6,281
Grok 4.20 7.7 10.0 66.7% 0 6.20s 149 7,913
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 10.0 10.0 100.0% 0 34.81s 507 859
Grok 4.20 3.0 10.0 0.0% 0 13.68s 197 6,620
Algemene kennis Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
DeepSeek V3.2 3.0 10.0 0.0% 0 83.99s 20 7,019
Grok 4.20 3.0 10.0 0.0% 0 63.48s 9 16,442

Snelle vergelijking

Vergelijkingspaar wisselen