AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs Z.ai: GLM 5V Turbo

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-01

Métrica	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lançamento: 2026-04-20	GLM 5V Turbo GLM 5V Turbo medium Lançamento: 2026-04-01

Métrica	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lançamento: 2026-04-20	GLM 5V Turbo GLM 5V Turbo medium Lançamento: 2026-04-01
Pontuação	7.5	7.8
Posição	#52	#44
Confiabilidade	10.0	N/D
Consistência	9.1	7.5
Testes corretos
Taxa de acerto por tentativa	68.5%	77.8%
Testes instáveis	2	6
Execuções totais	54	54
Custo por resultado	0.752	2.643
Custo total	$0.083	$0.291
Preço de entrada	$1.040 / 1M	$1.200 / 1M
Preço de saída	$6.240 / 1M	$4.000 / 1M
Tokens de saída	4,732	2,351
Tokens de raciocínio	0	58,941
Tempo de resposta (médio)	3.38s	14.96s
Tempo de resposta (máx.)	20.51s	67.08s
Tempo de resposta (total)	60.83s	269.32s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0
GLM 5V Turbo	7.2	6.1	75.0%	2		10.76s	587	7,872

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0
GLM 5V Turbo	10.0	10.0	100.0%	0		13.78s	404	4,628

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0
GLM 5V Turbo	6.9	3.8	66.7%	1		15.06s	403	2,523

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0
GLM 5V Turbo	10.0	10.0	100.0%	0		9.60s	236	4,333

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0
GLM 5V Turbo	5.3	7.2	44.4%	1		38.15s	32	29,035

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0
GLM 5V Turbo	10.0	10.0	100.0%	0		11.09s	131	2,183

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0
GLM 5V Turbo	9.9	10.0	100.0%	0		3.74s	72	1,813

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0
GLM 5V Turbo	7.7	7.3	77.8%	1		10.91s	193	5,789

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0
GLM 5V Turbo	7.0	3.7	66.7%	1		12.53s	293	765

Comparação rápida

Trocar par de comparação

DeepSeek V4 FlashhighvsGLM 5V Turbomedium Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone GPT-5.3 ChatnonevsGLM 5V Turbomedium GPT-5.2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone GPT-5.2 ChatnonevsGLM 5V Turbomedium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Kimi K2.6mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2.5medium