AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.6 27B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-27

Métrica	GPT-5.4 Mini GPT-5.4 Mini medium Lançamento: 2026-03-17	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20

Métrica	GPT-5.4 Mini GPT-5.4 Mini medium Lançamento: 2026-03-17	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20
Pontuação	7.3	7.0
Posição	#57	#60
Confiabilidade	N/D	10.0
Consistência	7.4	7.9
Testes corretos
Taxa de acerto por tentativa	70.4%	64.8%
Testes instáveis	6	5
Execuções totais	54	54
Custo por resultado	3.313	2.321
Custo total	$0.299	$0.209
Preço de entrada	$0.750 / 1M	$0.500 / 1M
Preço de saída	$4.500 / 1M	$2.000 / 1M
Tokens de saída	2,131	8,279
Tokens de raciocínio	59,567	91,083
Tempo de resposta (médio)	15.22s	50.53s
Tempo de resposta (máx.)	102.91s	168.22s
Tempo de resposta (total)	273.90s	909.49s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	582	4,311

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	10.0	10.0	100.0%	0		7.76s	423	1,548
Qwen3.6 27B	10.0	10.0	100.0%	0		168.22s	433	17,861

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	2,088	14,689

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	568	9,404

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	3,510	20,352

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	81	3,045

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	346	6,548

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449
Qwen3.6 27B	7.7	10.0	66.7%	0		60.21s	281	11,919

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	390	2,954

Comparação rápida

Trocar par de comparação

GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Gemma 4 31BnoneDisponível grátisvsQwen3.6 27Bmedium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium DeepSeek V4 ProhighvsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium DeepSeek V4 PrononevsQwen3.6 27Bmedium Qwen3.6 27BmediumvsGLM 5none Gemma 4 31BnoneDisponível grátisvsGPT-5.4 Minimedium Claude Sonnet 4.6nonevsQwen3.6 27Bmedium DeepSeek V4 ProhighvsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Qwen3.6 27BmediumvsMiMo-V2-Omninone