AI BENCHY Compare

Qwen: Qwen3.5-9B vs Z.ai: GLM 4.7 Flash

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-12

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash none Lançamento: 2026-01-19

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash none Lançamento: 2026-01-19
Posição	#66	#57
Pontuação média	2.6	3.9
Consistência	7.4	8.4
Custo por resultado	0.779	0.066
Custo total	$0.024	$0.003
Testes corretos
Taxa de acerto por tentativa	35.4%	35.4%
Testes instáveis	5	3
Execuções totais	48	48
Tokens de saída	17,930	1,855
Tokens de raciocínio	139,706	0
Tempo de resposta (médio)	71.44s	2.99s
Tempo de resposta (máx.)	226.38s	7.05s
Tempo de resposta (total)	928.77s	26.90s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação média vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913
GLM 4.7 Flash	10.0	7.2	22.2%	1		6.59s	430	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0
GLM 4.7 Flash	10.0	10.0	0.0%	0		3.22s	704	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113
GLM 4.7 Flash	5.4	5.8	83.3%	1		4.82s	196	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475
GLM 4.7 Flash	7.0	10.0	66.7%	0		744ms	19	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695
GLM 4.7 Flash	3.0	10.0	0.0%	0		1.59s	134	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517
GLM 4.7 Flash	5.5	10.0	50.0%	0		888ms	62	0

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844
GLM 4.7 Flash	3.7	10.0	0.0%	0		1.00s	98	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
GLM 4.7 Flash	10.0	1.6	33.3%	1		7.05s	212	0

Comparação rápida

Trocar par de comparação

Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3 Coder NextmediumvsGLM 4.7 Flashnone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneDisponível grátisvsQwen3.5-9Bmedium MiniMax M2.5mediumvsGLM 4.7 Flashnone Grok 4.20 Multi-Agent BetamediumvsGLM 4.7 Flashnone gpt-oss-120bmediumDisponível grátisvsGLM 4.7 Flashnone GPT-4o-mininonevsQwen3.5-9Bmedium Mercury 2mediumvsGLM 4.7 Flashnone Kimi K2.5nonevsQwen3.5-9Bmedium Trinity Large PreviewnoneDisponível grátisvsQwen3.5-9Bmedium