Navigatie
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

MiniMax: MiniMax M2.5 vs xAI: Grok 4.20 Multi-Agent Beta

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-03-12

Metriek MiniMax M2.5 MiniMax M2.5 medium Releasedatum: 2026-02-12 Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Releasedatum: 2026-03-12
Rang #49 #47
Gem. score 4.7 4.9
Consistentie 5.6 7.1
Kosten per resultaat 4.981 97.178
Totale kosten $0.250 $4.859
Correcte tests
Slaagpercentage per poging 60.4% 52.1%
Instabiele tests 9 6
Totaal runs 48 48
Uitvoer-tokens 107,044 293,634
Redeneer-tokens 206,190 291,260
Responstijd (gem.) 43.03s 9.08s
Responstijd (max) 237.27s 35.28s
Responstijd (totaal) 387.25s 127.09s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Gem. score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Gem. score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 9.3 7.9 88.9% 1 32.42s 286 45,112
Grok 4.20 Multi-Agent Beta 4.0 4.4 66.7% 2 3.77s 28,392 27,808
Gecombineerd Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 10.0 2.1 66.7% 1 60.39s 740 9,713
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0
Gegevensparsering en extractie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 10.0 1.7 66.7% 2 7.48s 266 3,835
Grok 4.20 Multi-Agent Beta 9.9 10.0 100.0% 0 5.54s 25,306 25,051
Domeinspecifiek Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 10.0 4.4 22.2% 2 237.27s 105,047 133,487
Grok 4.20 Multi-Agent Beta 10.0 7.2 11.1% 1 24.67s 164,609 163,647
Algemene intelligentie Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 3.0 2.5 33.3% 1 6.63s 25 1,686
Grok 4.20 Multi-Agent Beta 4.0 2.8 66.7% 1 6.40s 15,848 15,746
Instructies opvolgen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 8.0 6.8 83.3% 1 4.64s 252 1,873
Grok 4.20 Multi-Agent Beta 9.0 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 4.0 7.2 44.4% 1 11.54s 159 9,547
Grok 4.20 Multi-Agent Beta 6.3 5.1 77.8% 2 5.01s 34,022 33,686
Toolaanroepen Score Consistentie Slaagpercentage per poging Instabiele tests Correcte tests Responstijd (gem.) Uitvoer-tokens Redeneer-tokens
MiniMax M2.5 10.0 10.0 100.0% 0 15.35s 269 937
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0

Snelle vergelijking

Vergelijkingspaar wisselen