AI BENCHY Compare

xAI: Grok 4.20 vs Xiaomi: MiMo-V2-Omni

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-02

Metrică	Grok 4.20 Grok 4.20 medium Lansare: 2026-03-31	MiMo-V2-Omni MiMo-V2-Omni none Lansare: 2026-03-18

Metrică	Grok 4.20 Grok 4.20 medium Lansare: 2026-03-31	MiMo-V2-Omni MiMo-V2-Omni none Lansare: 2026-03-18
Scor	7.1	6.4
Rang	#40	#49
Consistență	8.2	10.0
Teste corecte
Rată de trecere pe încercare	66.7%	47.1%
Teste instabile	4	0
Rulări totale	51	17
Cost per rezultat	7.358	0.069
Cost total	$0.663	$0.006
Preț de intrare	$2.000 / 1M	$0.400 / 1M
Preț de ieșire	$6.000 / 1M	$2.000 / 1M
Tokenuri de ieșire	1,494	469
Tokenuri de raționament	97,078	0
Timp de răspuns (mediu)	9.50s	2.01s
Timp de răspuns (maxim)	29.87s	6.81s
Timp de răspuns (total)	161.54s	34.09s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	8.2	7.9	83.3%	1		3.36s	280	8,476
MiMo-V2-Omni	4.8	10.0	25.0%	0		1.10s	74	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556
MiMo-V2-Omni	3.0	10.0	0.0%	0		2.47s	110	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333
MiMo-V2-Omni	10.0	10.0	100.0%	0		1.69s	83	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339
MiMo-V2-Omni	5.3	10.0	33.3%	0		1.14s	8	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	5.8	2.8	66.7%	1		7.09s	47	4,252
MiMo-V2-Omni	4.5	10.0	0.0%	0		1.19s	37	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	7.3	5.9	83.3%	1		4.42s	40	5,474
MiMo-V2-Omni	6.5	10.0	50.0%	0		4.18s	22	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	6.4	7.7	55.6%	1		3.89s	143	8,028
MiMo-V2-Omni	8.0	10.0	66.7%	0		2.71s	58	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620
MiMo-V2-Omni	10.0	10.0	100.0%	0		2.76s	77	0

Comparație rapidă

Schimbă perechea de comparație

Mercury 2mediumvsMiMo-V2-Omninone Claude Sonnet 4.6nonevsGrok 4.20medium GPT-5 NanomediumvsMiMo-V2-Omninone Grok 4.20 Multi Agent BetamediumvsMiMo-V2-Omninone Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium Gemma 4 31BnonevsGrok 4.20medium Grok 4.20mediumvsGLM 5none GPT-5 MinimediumvsMiMo-V2-Omninone GPT-5.3 ChatnonevsGrok 4.20medium gpt-oss-120bmediumDisponibil gratuitvsMiMo-V2-Omninone Nemotron 3 SupermediumDisponibil gratuitvsMiMo-V2-Omninone Grok 4.1 FastmediumvsMiMo-V2-Omninone