AI BENCHY Compare

MiniMax: MiniMax M2.5 vs Owl Alpha

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-21

Métrica	MiniMax M2.5 MiniMax M2.5 medium Lançamento: 2026-02-12 Disponível grátis	Owl Alpha Owl Alpha medium Lançamento: 2026-04-30

Métrica	MiniMax M2.5 MiniMax M2.5 medium Lançamento: 2026-02-12 Disponível grátis	Owl Alpha Owl Alpha medium Lançamento: 2026-04-30
Pontuação	5.5	6.0
Posição	#115	#97
Confiabilidade	6.7	10.0
Consistência	5.9	9.6
Testes corretos
Taxa de acerto por tentativa	52.6%	43.9%
Testes instáveis	10	1
Execuções totais	57	57
Custo por resultado	5.443	0.000
Custo total	$0.273	$0.000
Preço de entrada	$0.150 / 1M	$0.000 / 1M
Preço de saída	$1.150 / 1M	$0.000 / 1M
Tokens de saída	108,324	1,613
Tokens de raciocínio	224,957	0
Tempo de resposta (médio)	43.39s	10.58s
Tempo de resposta (máx.)	237.27s	58.63s
Tempo de resposta (total)	477.26s	201.03s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	7.9	6.3	83.3%	2		20.82s	286	45,344
Owl Alpha	4.8	10.0	25.0%	0		3.97s	87	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	3.0	10.0	0.0%	0		0ms	0	0
Owl Alpha	10.0	10.0	100.0%	0		7.35s	402	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	4.5	2.1	66.7%	1		60.39s	740	9,713
Owl Alpha	3.0	10.0	0.0%	0		10.01s	315	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	4.6	1.7	66.7%	2		7.48s	266	3,835
Owl Alpha	10.0	10.0	100.0%	0		21.64s	246	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	2.9	4.4	22.2%	2		237.27s	105,047	133,487
Owl Alpha	5.3	10.0	33.3%	0		8.58s	28	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	3.8	2.5	33.3%	1		6.63s	25	1,686
Owl Alpha	4.3	10.0	0.0%	0		58.63s	98	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	7.5	6.7	66.7%	1		4.64s	252	1,873
Owl Alpha	6.3	10.0	50.0%	0		9.59s	57	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	5.3	7.2	44.4%	1		11.54s	159	9,547
Owl Alpha	5.3	7.2	44.4%	1		3.44s	135	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937
Owl Alpha	10.0	10.0	100.0%	0		8.26s	228	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
MiniMax M2.5	3.0	10.0	0.0%	0		80.79s	1,280	18,535
Owl Alpha	3.0	10.0	0.0%	0		2.38s	17	0

Comparação rápida

Trocar par de comparação

Owl AlphamediumvsQwen3.5-Flashnone Owl AlphamediumvsGLM 5V Turbonone Seed-2.0-LitenonevsOwl Alphamedium Owl AlphamediumvsQwen3.5 Plus 2026-04-20none Owl AlphamediumvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumDisponível grátisvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumDisponível grátisvsQwen3.6 Flashnone DeepSeek V3.2nonevsMiniMax M2.5mediumDisponível grátis MiniMax M2.5mediumDisponível grátisvsKimi K2.5none Owl AlphamediumvsMiMo-V2-Pronone MiniMax M2.5mediumDisponível grátisvsGrok 4.20none Owl AlphamediumvsQwen3.5-27Bnone