AI BENCHY Compare

Inception: Mercury 2 vs Elephant Alpha

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-29

Métrica	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24	Elephant Alpha Elephant Alpha none Lançamento: 2026-04-14

Métrica	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24	Elephant Alpha Elephant Alpha none Lançamento: 2026-04-14
Pontuação	6.5	5.2
Posição	#92	#136
Confiabilidade	10.0	N/D
Consistência	8.8	9.6
Testes corretos
Taxa de acerto por tentativa	51.7%	29.8%
Testes instáveis	3	1
Execuções totais	60	60
Custo por resultado	0.611	0.000
Custo total	$0.055	$0.000
Preço de entrada	$0.250 / 1M	$0.000 / 1M
Preço de saída	$0.750 / 1M	$0.000 / 1M
Tokens de saída	4,022	2,573
Tokens de raciocínio	58,405	0
Tempo de resposta (médio)	2.27s	1.22s
Tempo de resposta (máx.)	14.63s	3.81s
Tempo de resposta (total)	43.20s	22.03s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Elephant Alpha	6.6	10.0	50.0%	0		963ms	610	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
Elephant Alpha	4.7	6.7	33.3%	1		1.39s	375	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Elephant Alpha	3.0	10.0	0.0%	0		3.81s	731	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Elephant Alpha	6.5	10.0	50.0%	0		1.04s	246	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Elephant Alpha	3.0	10.0	0.0%	0		927ms	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Elephant Alpha	4.0	10.0	0.0%	0		854ms	106	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Elephant Alpha	9.8	10.0	100.0%	0		1.03s	81	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	5.4	10.0	33.3%	0		949ms	361	2,781
Elephant Alpha	4.2	10.0	0.0%	0		807ms	170	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Elephant Alpha	3.0	10.0	0.0%	0		2.79s	230	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
Elephant Alpha	0.0	0.0	0.0%	0		0ms	0	0

Comparação rápida

Trocar par de comparação

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Gemini 2.5 FlashnonevsMercury 2medium MiniMax M2.7mediumvsElephant Alphanone Mistral Small 4mediumvsElephant Alphanone Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31BnoneDisponível grátisvsMercury 2medium MiniMax M2.5mediumDisponível grátisvsElephant Alphanone DeepSeek V3.2nonevsMercury 2medium DeepSeek V4 PrononevsMercury 2medium