AI BENCHY Compare

MiniMax: MiniMax M3 vs xAI: Grok Build 0.1

Resumo

Comparação benchmark MiniMax M3 vs Grok Build 0.1: A pontuação média está praticamente empatada em 7.6 vs 7.6. MiniMax M3 tem menor custo de benchmark com $0.131 vs $0.927. Grok Build 0.1 é mais rápido com 49.90s vs 68.17s, com taxas de acerto de 65.1% vs 61.9%.

Modelo recomendado: MiniMax M3 - Tem a melhor pontuação aqui (7.6) e custa cerca de 7.1x menos que Grok Build 0.1.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-07-02

Métrica	MiniMax M3 MiniMax M3 medium Lançamento: 2026-06-01	Grok Build 0.1 Grok Build 0.1 medium Lançamento: 2026-05-21

Métrica	MiniMax M3 MiniMax M3 medium Lançamento: 2026-06-01	Grok Build 0.1 Grok Build 0.1 medium Lançamento: 2026-05-21
Pontuação	7.6	7.6
Posição	#42	#44
Confiabilidade	9.6	10.0
Consistência	7.9	9.9
Testes corretos
Taxa de acerto por tentativa	65.1%	61.9%
Testes instáveis	5	0
Execuções totais	63	63
Custo por resultado	1.187	7.124
Custo total	$0.131	$0.927
Preço de entrada	$0.300 / 1M	$1.000 / 1M
Preço de saída	$1.200 / 1M	$2.000 / 1M
Total de tokens de entrada	46,546	44,418
Tokens de saída	49,036	2,782
Tokens de raciocínio	92,543	438,018
Tempo de resposta (médio)	68.17s	49.90s
Tempo de resposta (máx.)	431.03s	252.69s
Tempo de resposta (total)	1363.38s	1047.92s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#42 MiniMax M3

medium

Custo: $0.012
Tempo: 154.4s
Tokens: 10,018 tok

#44 xAI: Grok Build 0.1

medium

Custo: $0.028
Tempo: 81.3s
Tokens: 14,009 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	5.5	3.7	66.7%	3		14.95s	2,526	874	3,414
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	6.1	6.5	55.6%	1		144.74s	5,804	6,223	32,667
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	10.0	10.0	100.0%	0		65.30s	14,760	1,306	6,253
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	12,909	231	16,917

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	10.0	10.0	100.0%	0		14.92s	8,088	514	3,164
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	5.5	9.3	33.3%	0		233.13s	869	16,254	19,070
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	5.1	3.4	33.3%	1		33.25s	954	2,487	2,523
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	9.8	10.0	100.0%	0		6.14s	1,623	103	920
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	7.9	9.9	66.7%	0		49.91s	2,079	11,946	13,761
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	10.0	10.0	100.0%	0		11.91s	9,168	281	555
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
MiniMax M3	3.0	10.0	0.0%	0		100.80s	675	9,048	10,216
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

Comparação rápida

Trocar par de comparação

DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGrok Build 0.1medium GPT-5.3 ChatnonevsGrok Build 0.1medium MiniMax M3mediumvsStep 3.7 Flashlow MiniMax M3mediumvsGPT-5.3 Chatnone Step 3.7 FlashlowvsGrok Build 0.1medium Claude Opus 4.8lowvsMiniMax M3medium Claude Opus 4.8lowvsGrok Build 0.1medium Gemini 3 Flash PreviewlowvsGrok Build 0.1medium Gemini 3 Flash PreviewlowvsMiniMax M3medium Claude Sonnet 4.6nonevsGrok Build 0.1medium Claude Sonnet 4.6nonevsMiniMax M3medium