AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.6 27B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-22

Métrica	GPT-5.2 GPT-5.2 medium Lançamento: 2025-12-11	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20

Métrica	GPT-5.2 GPT-5.2 medium Lançamento: 2025-12-11	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20
Pontuação	7.4	6.6
Posição	#57	#83
Confiabilidade	10.0	9.9
Consistência	8.3	8.1
Testes corretos
Taxa de acerto por tentativa	70.0%	58.3%
Testes instáveis	4	5
Execuções totais	60	60
Custo por resultado	4.081	3.015
Custo total	$0.490	$0.272
Preço de entrada	$1.750 / 1M	$0.317 / 1M
Preço de saída	$14.000 / 1M	$3.200 / 1M
Tokens de saída	2,754	13,007
Tokens de raciocínio	28,303	105,697
Tempo de resposta (médio)	16.44s	57.65s
Tempo de resposta (máx.)	77.80s	168.22s
Tempo de resposta (total)	213.77s	1153.04s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	582	4,311

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	10.0	10.0	100.0%	0		23.15s	490	8,269
Qwen3.6 27B	6.6	10.0	50.0%	0		165.39s	4,760	26,668

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	2,088	14,689

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	568	9,404

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	3,510	20,352

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	81	3,045

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	346	6,548

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	7.6	7.3	77.8%	1		5.47s	609	938
Qwen3.6 27B	7.7	10.0	66.7%	0		60.21s	281	11,919

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	390	2,954

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	401	5,807

Comparação rápida

Trocar par de comparação

DeepSeek V4 FlashhighDisponível grátisvsGPT-5.2medium Qwen3.6 27BmediumvsGrok Build 0.1none Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsGPT-5.2medium DeepSeek V4 ProhighvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemma 4 31BnoneDisponível grátisvsQwen3.6 27Bmedium Ring-2.6-1TnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Gemini 3 Flash PreviewnonevsGPT-5.2medium