Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.1 Fast

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-05

Métrica	Inception: Mercury 2 none Lançamento: 2026-02-24	xAI: Grok 4.1 Fast none Lançamento: 2025-11-19
Posição	#50	#53
Pontuação média	34	29
Consistência	89	89
Custo por resultado	0.147	0.239
Custo total	$0.006	$0.008
Testes corretos
Taxa de acerto por tentativa	33.3%	26.7%
Testes instáveis	2	2
Tokens de saída	1,144	1,036
Tokens de raciocínio	0	0

Melhores modelos por pontuação

Pontuação vs custo total

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	100	100	0.0%	0		274	0
xAI: Grok 4.1 Fast	13	100	0.0%	0		229	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	100	100	0.0%	0		131	0
xAI: Grok 4.1 Fast	100	100	0.0%	0		105	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	55	59	83.3%	1		180	0
xAI: Grok 4.1 Fast	99	100	100.0%	0		180	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	40	72	44.4%	1		46	0
xAI: Grok 4.1 Fast	40	72	55.6%	1		15	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	55	100	50.0%	0		82	0
xAI: Grok 4.1 Fast	100	100	0.0%	0		56	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	100	100	0.0%	0		234	0
xAI: Grok 4.1 Fast	13	100	0.0%	0		243	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tokens de saída	Tokens de raciocínio
Inception: Mercury 2	100	100	100.0%	0		197	0
xAI: Grok 4.1 Fast	100	16	33.3%	1		208	0

Comparação rápida

Trocar par de comparação

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Mercury 2nonevsMiniMax M2.5medium Mercury 2nonevsgpt-oss-120bmediumDisponível grátis MiniMax M2.5mediumvsGrok 4.1 Fastnone Mercury 2nonevsGPT-5 Nanomedium gpt-oss-120bmediumDisponível grátisvsGrok 4.1 Fastnone Mercury 2nonevsQwen3.5-35B-A3Bmedium Mercury 2mediumvsGrok 4.1 Fastnone Mercury 2nonevsGPT-5 Minimedium