AI BENCHY Compare

xAI: Grok 4.20 vs Xiaomi: MiMo-V2-Omni

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-10

Métrica	Grok 4.20 Grok 4.20 medium Lançamento: 2026-03-31	MiMo-V2-Omni MiMo-V2-Omni none Lançamento: 2026-03-18

Métrica	Grok 4.20 Grok 4.20 medium Lançamento: 2026-03-31	MiMo-V2-Omni MiMo-V2-Omni none Lançamento: 2026-03-18
Pontuação	6.9	6.3
Posição	#68	#81
Confiabilidade	10.0	10.0
Consistência	8.3	9.7
Testes corretos
Taxa de acerto por tentativa	63.2%	43.9%
Testes instáveis	4	1
Execuções totais	57	49
Custo por resultado	7.559	0.241
Custo total	$0.756	$0.020
Preço de entrada	$1.250 / 1M	$0.400 / 1M
Preço de saída	$2.500 / 1M	$2.000 / 1M
Tokens de saída	1,784	2,254
Tokens de raciocínio	128,233	0
Tempo de resposta (médio)	14.53s	2.37s
Tempo de resposta (máx.)	63.48s	6.81s
Tempo de resposta (total)	276.06s	45.03s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	8.2	7.9	83.3%	1		3.95s	287	8,312
MiMo-V2-Omni	3.6	8.4	8.3%	1		1.63s	773	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	4.3	1.1	66.7%	1		24.33s	250	12,804
MiMo-V2-Omni	6.6	10.0	0.0%	0		1.72s	399	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556
MiMo-V2-Omni	3.0	10.0	0.0%	0		5.96s	387	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333
MiMo-V2-Omni	10.0	10.0	100.0%	0		1.76s	147	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339
MiMo-V2-Omni	5.3	10.0	33.3%	0		2.10s	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	3.9	2.6	33.3%	1		24.48s	65	6,440
MiMo-V2-Omni	4.1	10.0	0.0%	0		2.33s	103	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	7.3	6.0	83.3%	1		4.42s	40	5,474
MiMo-V2-Omni	6.5	10.0	50.0%	0		4.26s	30	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	7.7	10.0	66.7%	0		6.20s	149	7,913
MiMo-V2-Omni	10.0	10.0	100.0%	0		1.16s	148	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620
MiMo-V2-Omni	10.0	10.0	100.0%	0		5.40s	231	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Grok 4.20	3.0	10.0	0.0%	0		63.48s	9	16,442
MiMo-V2-Omni	3.0	10.0	0.0%	0		1.30s	12	0

Comparação rápida

Trocar par de comparação

DeepSeek V4 ProhighvsGrok 4.20medium Gemma 4 31BnoneDisponível grátisvsGrok 4.20medium Mercury 2mediumvsMiMo-V2-Omninone Gemini 3.1 Flash LiteminimalvsGrok 4.20medium GPT-5 NanomediumvsMiMo-V2-Omninone GPT-5.5nonevsGrok 4.20medium Grok 4.1 FastmediumvsMiMo-V2-Omninone Gemini 3.1 Flash LitenonevsGrok 4.20medium Nemotron 3 SupermediumDisponível grátisvsMiMo-V2-Omninone Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium Owl AlphamediumvsMiMo-V2-Omninone Claude Sonnet 4.6nonevsGrok 4.20medium