AI BENCHY Compare

Inception: Mercury 2 vs Z.ai: GLM 5 Turbo

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-03

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	GLM 5 Turbo GLM 5 Turbo none Lançamento: 2026-03-15

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	GLM 5 Turbo GLM 5 Turbo none Lançamento: 2026-03-15
Pontuação	4.6	5.3
Posição	#153	#132
Confiabilidade	10.0	10.0
Consistência	9.1	9.3
Testes corretos
Taxa de acerto por tentativa	25.0%	33.3%
Testes instáveis	2	2
Execuções totais	60	60
Custo por resultado	0.216	0.602
Custo total	$0.009	$0.044
Preço de entrada	$0.250 / 1M	$1.200 / 1M
Preço de saída	$0.750 / 1M	$4.000 / 1M
Total de tokens de entrada	25,515	29,927
Tokens de saída	3,001	1,809
Tokens de raciocínio	0	0
Tempo de resposta (médio)	614ms	2.86s
Tempo de resposta (máx.)	1.27s	8.21s
Tempo de resposta (total)	12.28s	57.24s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.84s	555	382	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
GLM 5 Turbo	4.4	6.7	16.7%	1		2.58s	4,658	523	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
GLM 5 Turbo	3.0	10.0	0.0%	0		4.89s	8,133	144	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
GLM 5 Turbo	10.0	10.0	100.0%	0		2.47s	7,107	204	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
GLM 5 Turbo	5.3	10.0	33.3%	0		1.97s	687	25	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
GLM 5 Turbo	4.2	9.9	0.0%	0		2.18s	477	48	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
GLM 5 Turbo	6.5	10.0	50.0%	0		2.13s	636	65	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
GLM 5 Turbo	5.5	7.4	44.4%	1		2.65s	609	180	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
GLM 5 Turbo	10.0	10.0	100.0%	0		8.21s	6,879	222	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.37s	186	16	0

Comparação rápida

Trocar par de comparação

Elephant AlphamediumvsGLM 5 Turbonone Mistral Small 4mediumvsGLM 5 Turbonone MiniMax M2.7mediumvsGLM 5 Turbonone Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsGLM 5 Turbonone Mercury 2nonevsQwen3.5-9Bmedium CobuddymediumvsGLM 5 Turbonone Owl AlphamediumvsGLM 5 Turbonone Qwen3 Coder NextmediumvsGLM 5 Turbonone gpt-oss-120bmediumDisponível grátisvsGLM 5 Turbonone Nemotron 3 SupermediumDisponível grátisvsGLM 5 Turbonone