AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-03

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	gpt-oss-120b gpt-oss-120b medium Lançamento: 2025-08-05 Disponível grátis

Métrica	Mercury 2 Mercury 2 none Lançamento: 2026-02-24	gpt-oss-120b gpt-oss-120b medium Lançamento: 2025-08-05 Disponível grátis
Pontuação	4.6	5.9
Posição	#153	#103
Confiabilidade	10.0	10.0
Consistência	9.1	7.9
Testes corretos
Taxa de acerto por tentativa	25.0%	50.0%
Testes instáveis	2	5
Execuções totais	60	60
Custo por resultado	0.216	0.151
Custo total	$0.009	$0.012
Preço de entrada	$0.250 / 1M	$0.039 / 1M
Preço de saída	$0.750 / 1M	$0.180 / 1M
Total de tokens de entrada	25,515	36,355
Tokens de saída	3,001	17,495
Tokens de raciocínio	0	46,878
Tempo de resposta (médio)	614ms	22.41s
Tempo de resposta (máx.)	1.27s	68.16s
Tempo de resposta (total)	12.28s	291.35s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
gpt-oss-120b	3.9	5.6	33.3%	1		47.24s	5,053	847	8,618

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de entrada	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Comparação rápida

Trocar par de comparação

gpt-oss-120bmediumDisponível grátisvsQwen3.5-Flashnone gpt-oss-120bmediumDisponível grátisvsGLM 5V Turbonone Seed-2.0-Litenonevsgpt-oss-120bmediumDisponível grátis gpt-oss-120bmediumDisponível grátisvsGLM 5.1none DeepSeek V4 Prononevsgpt-oss-120bmediumDisponível grátis gpt-oss-120bmediumDisponível grátisvsQwen3.5 Plus 2026-04-20none Mercury 2nonevsQwen3 Coder Nextmedium gpt-oss-120bmediumDisponível grátisvsQwen3.5-35B-A3Bnone Mercury 2nonevsGLM 4.7 Flashmedium gpt-oss-120bmediumDisponível grátisvsQwen3.5-27Bnone gpt-oss-120bmediumDisponível grátisvsQwen3.6 27Bnone DeepSeek V4 Prohighvsgpt-oss-120bmediumDisponível grátis