AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-22

Métrica	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24	gpt-oss-120b gpt-oss-120b none Lançamento: 2025-08-05 Disponível grátis

Métrica	Mercury 2 Mercury 2 medium Lançamento: 2026-02-24	gpt-oss-120b gpt-oss-120b none Lançamento: 2025-08-05 Disponível grátis
Pontuação	6.3	5.2
Posição	#90	#129
Confiabilidade	10.0	10.0
Consistência	8.4	8.7
Testes corretos
Taxa de acerto por tentativa	50.0%	36.8%
Testes instáveis	4	3
Execuções totais	60	57
Custo por resultado	0.687	0.201
Custo total	$0.055	$0.011
Preço de entrada	$0.250 / 1M	$0.000 / 1M
Preço de saída	$0.750 / 1M	$0.000 / 1M
Tokens de saída	4,015	51,505
Tokens de raciocínio	58,382	0
Tempo de resposta (médio)	2.27s	21.86s
Tempo de resposta (máx.)	14.63s	113.71s
Tempo de resposta (total)	43.15s	349.78s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	8,676	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	615	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
gpt-oss-120b	9.8	10.0	100.0%	0		5.10s	1,982	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	3.8	7.3	22.2%	1		934ms	354	2,758
gpt-oss-120b	4.4	4.5	44.5%	2		9.51s	3,781	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	3,138	0

Comparação rápida

Trocar par de comparação

Mercury 2mediumvsGLM 5none Gemma 4 26B A4BnoneDisponível grátisvsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsMiMo-V2-Omninone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.7mediumvsgpt-oss-120bnoneDisponível grátis gpt-oss-120bnoneDisponível grátisvsElephant Alphamedium Mistral Small 4mediumvsgpt-oss-120bnoneDisponível grátis DeepSeek V4 PrononevsMercury 2medium MiniMax M2.5mediumDisponível grátisvsgpt-oss-120bnoneDisponível grátis Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium