AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-03

Métrica	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24	Kimi K2.5 Kimi K2.5 medium Lançamento: 2026-01-27

Métrica	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24	Kimi K2.5 Kimi K2.5 medium Lançamento: 2026-01-27
Pontuação	6.5	6.7
Posição	#89	#81
Confiabilidade	10.0	10.0
Consistência	8.8	6.8
Testes corretos
Taxa de acerto por tentativa	51.7%	66.7%
Testes instáveis	3	8
Execuções totais	60	60
Custo por resultado	0.611	3.486
Custo total	$0.055	$0.272
Preço de entrada	$0.250 / 1M	$0.400 / 1M
Preço de saída	$0.750 / 1M	$1.900 / 1M
Total de tokens de entrada	32,570	31,717
Tokens de saída	4,022	48,374
Tokens de raciocínio	58,405	128,473
Tempo de resposta (médio)	2.27s	89.02s
Tempo de resposta (máx.)	14.63s	281.00s
Tempo de resposta (total)	43.20s	1157.32s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514
Kimi K2.5	4.1	1.9	50.0%	2		215.89s	4,340	5,700	45,419

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

Comparação rápida

Trocar par de comparação

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Gemma 4 31BnoneDisponível grátisvsKimi K2.5medium Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Kimi K2.5mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsRing-2.6-1Tnone Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none Gemini 2.5 FlashnonevsMercury 2medium Gemini 3.1 Flash LiteminimalvsMercury 2medium