AI BENCHY Compare

Qwen: Qwen3.5-9B vs Qwen: Qwen3.5-9B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-26

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02	Qwen3.5-9B Qwen3.5-9B none Lançamento: 2026-03-02

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02	Qwen3.5-9B Qwen3.5-9B none Lançamento: 2026-03-02
Pontuação	4.4	4.8
Posição	#114	#105
Confiabilidade	N/D	N/D
Consistência	7.2	9.6
Testes corretos
Taxa de acerto por tentativa	33.3%	24.1%
Testes instáveis	6	1
Execuções totais	54	54
Custo por resultado	0.976	0.116
Custo total	$0.030	$0.005
Preço de entrada	$0.100 / 1M	$0.100 / 1M
Preço de saída	$0.150 / 1M	$0.150 / 1M
Tokens de saída	24,291	3,951
Tokens de raciocínio	172,597	0
Tempo de resposta (médio)	73.64s	1.47s
Tempo de resposta (máx.)	226.38s	5.91s
Tempo de resposta (total)	1104.60s	26.43s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	2.6	10.0	0.0%	0		135.61s	6,150	31,393
Qwen3.5-9B	5.2	3.4	33.3%	1		5.69s	1,006	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844
Qwen3.5-9B	3.2	9.9	0.0%	0		683ms	388	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

Comparação rápida

Trocar par de comparação

GPT-5.4 NanononevsQwen3.5-9Bmedium Ling 2.6 1tnoneDisponível grátisvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BnonevsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsHY3 PreviewnoneDisponível grátis Mercury 2nonevsQwen3.5-9Bmedium Elephant AlphamediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsQwen3.5-9Bnone GPT-4o-mininonevsQwen3.5-9Bmedium Nemotron 3 SupernoneDisponível grátisvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsMiMo-V2.5none