AI BENCHY Compare

xAI: Grok 4.20 Multi-Agent Beta vs Xiaomi: MiMo-V2-Pro

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-03-20

Métrique	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Sortie: 2026-03-12	MiMo-V2-Pro MiMo-V2-Pro none Sortie: 2026-03-18

Métrique	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Sortie: 2026-03-12	MiMo-V2-Pro MiMo-V2-Pro none Sortie: 2026-03-18
Score	6.2	5.8
Rang	#45	#54
Cohérence	7.2	8.5
Tests corrects
Taux de réussite par tentative	54.9%	45.1%
Tests instables	6	3
Exécutions totales	51	51
Coût par résultat	82.962	0.659
Coût total	$4.978	$0.040
Prix d'entrée	$2.000 / 1M	$1.000 / 1M
Prix de sortie	$6.000 / 1M	$3.000 / 1M
Jetons de sortie	298,948	1,721
Jetons de raisonnement	296,529	0
Temps de réponse (moy.)	8.64s	2.31s
Temps de réponse (max)	35.28s	6.58s
Temps de réponse (total)	129.64s	39.25s

Meilleurs modèles par score

Score vs coût total

Temps de réponse (moy.)

Score vs Temps de réponse (moy.)

Total des jetons de sortie

Score vs Total des jetons de sortie

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077
MiMo-V2-Pro	3.5	8.0	16.7%	1		1.80s	315	0

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
MiMo-V2-Pro	3.0	10.0	0.0%	0		6.58s	333	0

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051
MiMo-V2-Pro	10.0	10.0	100.0%	0		1.39s	249	0

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647
MiMo-V2-Pro	5.3	7.2	44.4%	1		1.78s	26	0

Intelligence générale	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746
MiMo-V2-Pro	4.3	9.9	0.0%	0		2.44s	125	0

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322
MiMo-V2-Pro	6.5	10.0	50.0%	0		2.51s	69	0

Puzzle Solving	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686
MiMo-V2-Pro	6.0	7.1	55.6%	1		1.83s	327	0

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
Grok 4.20 Multi-Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.39s	277	0

Comparaison rapide

Changer la paire de comparaison

MiniMax M2.5mediumDisponible gratuitementvsMiMo-V2-Pronone DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium Mistral Small 4mediumvsMiMo-V2-Pronone Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumDisponible gratuitementvsMiMo-V2-Pronone Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsMiMo-V2-Pronone Grok 4.20 Multi-Agent BetamediumvsGLM 5none