AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.6 35B A3B

Resumo

Comparação benchmark Mercury 2 vs Qwen3.6 35B A3B: Qwen3.6 35B A3B lidera na pontuação média com 5.2 vs 4.6. Mercury 2 tem menor custo de benchmark com $0.011 vs $0.031. Mercury 2 é mais rápido com 653ms vs 3.73s, com taxas de acerto de 23.8% vs 30.2%.

Modelo recomendado: Mercury 2 - A pontuação fica perto da melhor aqui (4.6 vs 5.2) e custa cerca de 2.9x menos que Qwen3.6 35B A3B.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-18

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none Lançamento: 2026-04-20

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none Lançamento: 2026-04-20
Pontuação	4.6	5.2
Posição	#151	#128
Confiabilidade	10.0	10.0
Consistência	9.2	8.0
Testes corretos
Taxa de acerto por tentativa	23.8%	30.2%
Testes instáveis	2	5
Execuções totais	63	63
Custo por resultado	0.259	0.754
Custo total	$0.011	$0.031
Preço de entrada	$0.250 / 1M	$0.140 / 1M
Preço de saída	$0.750 / 1M	$1.000 / 1M
Total de tokens de entrada	28,113	19,329
Tokens de saída	4,439	27,755
Tokens de raciocínio	0	0
Tempo de resposta (médio)	653ms	3.73s
Tempo de resposta (máx.)	1.43s	22.52s
Tempo de resposta (total)	13.72s	70.86s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none

Custo: $0.002
Tempo: 1.8s
Tokens: 1,514 tok

#128 Qwen3.6 35B A3B

none

Custo: $0.008
Tempo: 30.1s
Tokens: 6,317 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Qwen3.6 35B A3B	3.6	7.6	16.7%	1		2.10s	696	1,571	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
Qwen3.6 35B A3B	5.5	10.0	33.3%	0		8.77s	7,911	11,161	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		1.46s	7,788	248	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Qwen3.6 35B A3B	3.5	4.4	33.3%	2		7.45s	781	11,381	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Qwen3.6 35B A3B	4.4	3.0	33.3%	1		3.51s	520	1,545	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Qwen3.6 35B A3B	6.2	5.8	66.7%	1		1.86s	709	1,264	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Qwen3.6 35B A3B	3.2	9.9	0.0%	0		1.07s	714	573	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		414ms	210	12	0

Comparação rápida

Trocar par de comparação

MiniMax M2.7mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsQwen3 Coder Nextmedium Mistral Small 4mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsMiniMax M2.5medium CobuddymediumvsQwen3.6 35B A3Bnone CobuddymediumvsMercury 2none Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsQwen3.6 35B A3Bnone Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.7medium North Mini CodemediumDisponível grátisvsQwen3.6 35B A3Bnone Mercury 2nonevsQwen3.5-9Bmedium