AI BENCHY Compare

Inception: Mercury 2 vs Elephant Alpha

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-03

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	Elephant Alpha Elephant Alpha none Lançamento: 2026-04-14

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	Elephant Alpha Elephant Alpha none Lançamento: 2026-04-14
Pontuação	4.6	5.1
Posição	#153	#136
Confiabilidade	10.0	N/D
Consistência	9.1	9.7
Testes corretos
Taxa de acerto por tentativa	25.0%	28.3%
Testes instáveis	2	1
Execuções totais	60	60
Custo por resultado	0.216	0.000
Custo total	$0.009	$0.000
Preço de entrada	$0.250 / 1M	$0.000 / 1M
Preço de saída	$0.750 / 1M	$0.000 / 1M
Total de tokens de entrada	25,515	33,743
Tokens de saída	3,001	2,573
Tokens de raciocínio	0	0
Tempo de resposta (médio)	614ms	1.22s
Tempo de resposta (máx.)	1.27s	3.81s
Tempo de resposta (total)	12.28s	22.03s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Elephant Alpha	6.6	10.0	50.0%	0		963ms	726	610	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
Elephant Alpha	4.7	6.7	33.3%	1		1.39s	813	375	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Elephant Alpha	3.0	10.0	0.0%	0		3.81s	14,046	731	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Elephant Alpha	6.5	10.0	50.0%	0		1.04s	8,004	246	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Elephant Alpha	3.0	10.0	0.0%	0		927ms	810	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Elephant Alpha	4.0	10.0	0.0%	0		854ms	540	106	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Elephant Alpha	9.8	10.0	100.0%	0		1.03s	732	81	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Elephant Alpha	4.2	10.0	0.0%	0		807ms	729	170	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Elephant Alpha	3.0	10.0	0.0%	0		2.79s	7,343	230	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Elephant Alpha	3.0	10.0	0.0%	0		0ms	0	0	0

Comparação rápida

Trocar par de comparação

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsElephant Alphanone MiniMax M2.7mediumvsElephant Alphanone MiniMax M2.5mediumvsElephant Alphanone Mercury 2nonevsQwen3.5-9Bmedium Elephant AlphanonevsQwen3 Coder Nextmedium CobuddymediumvsElephant Alphanone Mercury 2nonevsElephant Alphamedium Elephant AlphanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumDisponível grátisvsElephant Alphanone Nemotron 3 SupermediumDisponível grátisvsElephant Alphanone