AI BENCHY Compare

Qwen: Qwen3.6 27B vs xAI: Grok Build 0.1

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-22

Métrica	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20	Grok Build 0.1 Grok Build 0.1 none Lançamento: 2026-05-21

Métrica	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20	Grok Build 0.1 Grok Build 0.1 none Lançamento: 2026-05-21
Pontuação	6.6	6.6
Posição	#83	#82
Confiabilidade	9.9	10.0
Consistência	8.1	8.0
Testes corretos
Taxa de acerto por tentativa	58.3%	60.4%
Testes instáveis	5	4
Execuções totais	60	57
Custo por resultado	3.015	7.805
Custo total	$0.272	$0.547
Preço de entrada	$0.317 / 1M	$1.000 / 1M
Preço de saída	$3.200 / 1M	$2.000 / 1M
Tokens de saída	13,007	267,275
Tokens de raciocínio	105,697	0
Tempo de resposta (médio)	57.65s	28.69s
Tempo de resposta (máx.)	168.22s	138.35s
Tempo de resposta (total)	1153.04s	459.00s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	582	4,311
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	6.6	10.0	50.0%	0		165.39s	4,760	26,668
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	2,088	14,689
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	568	9,404
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	3,510	20,352
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	81	3,045
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	346	6,548
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	7.7	10.0	66.7%	0		60.21s	281	11,919
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	390	2,954
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	401	5,807
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

Comparação rápida

Trocar par de comparação

DeepSeek V4 ProhighvsGrok Build 0.1none Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none DeepSeek V4 ProhighvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemma 4 31BnoneDisponível grátisvsQwen3.6 27Bmedium Qwen3.6 27BmediumvsGLM 5none GPT-5 MinimediumvsGrok Build 0.1none Grok Build 0.1nonevsMiMo-V2-Omnimedium Mercury 2mediumvsGrok Build 0.1none