AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-9B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-17

Métrica	GPT-5.4 Mini GPT-5.4 Mini none Lançamento: 2026-03-17	Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02

Métrica	GPT-5.4 Mini GPT-5.4 Mini none Lançamento: 2026-03-17	Qwen3.5-9B Qwen3.5-9B medium Lançamento: 2026-03-02
Posição	#66	#70
Pontuação	4.8	4.5
Consistência	8.6	7.0
Custo por resultado	0.737	0.787
Custo total	$0.030	$0.024
Testes corretos
Taxa de acerto por tentativa	31.4%	35.3%
Testes instáveis	3	6
Execuções totais	51	51
Tokens de saída	2,085	18,141
Tokens de raciocínio	0	141,204
Tempo de resposta (médio)	1.17s	69.21s
Tempo de resposta (máx.)	2.52s	226.38s
Tempo de resposta (total)	19.82s	968.99s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Comparação rápida

Trocar par de comparação

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 MininonevsQwen3 Coder Nextmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3.5-9Bmedium Mercury 2nonevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneDisponível grátisvsQwen3.5-9Bmedium Mistral Small 4mediumvsGPT-5.4 Mininone Mistral Small 4nonevsQwen3.5-9Bmedium Trinity Large PreviewnoneDisponível grátisvsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium