AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs MiniMax: MiniMax M2.5

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite none Lançamento: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium Lançamento: 2026-02-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite none Lançamento: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium Lançamento: 2026-02-12
Posição	#45	#49
Pontuação média	4.9	4.7
Consistência	7.4	5.6
Custo por resultado	0.214	4.981
Custo total	$0.015	$0.250
Testes corretos
Taxa de acerto por tentativa	56.3%	60.4%
Testes instáveis	5	9
Execuções totais	48	48
Tokens de saída	2,743	107,044
Tokens de raciocínio	0	206,190
Tempo de resposta (médio)	2.49s	43.03s
Tempo de resposta (máx.)	6.70s	237.27s
Tempo de resposta (total)	39.91s	387.25s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação média vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
MiniMax M2.5	9.3	7.9	88.9%	1		32.42s	286	45,112

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
MiniMax M2.5	10.0	2.1	66.7%	1		60.39s	740	9,713

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
MiniMax M2.5	10.0	1.7	66.7%	2		7.48s	266	3,835

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
MiniMax M2.5	10.0	4.4	22.2%	2		237.27s	105,047	133,487

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
MiniMax M2.5	3.0	2.5	33.3%	1		6.63s	25	1,686

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
MiniMax M2.5	8.0	6.8	83.3%	1		4.64s	252	1,873

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
MiniMax M2.5	4.0	7.2	44.4%	1		11.54s	159	9,547

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937

Comparação rápida

Trocar par de comparação

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsHunter Alphanone Seed-2.0-Litenonevsgpt-oss-120bmediumDisponível grátis MiniMax M2.5mediumvsGPT-5.4none MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGrok 4.20 Betanone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Seed-2.0-LitenonevsMercury 2medium Trinity Large PreviewnoneDisponível grátisvsMiniMax M2.5medium Gemini 2.5 FlashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsQwen3.5-Flashnone