AI BENCHY Compare

Google: Gemma 4 31B vs Qwen: Qwen3.5-27B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-19

Métrica	Gemma 4 31B Gemma 4 31B medium Lançamento: 2026-04-02 Disponível grátis	Qwen3.5-27B Qwen3.5-27B medium Lançamento: 2026-02-24

Métrica	Gemma 4 31B Gemma 4 31B medium Lançamento: 2026-04-02 Disponível grátis	Qwen3.5-27B Qwen3.5-27B medium Lançamento: 2026-02-24
Pontuação	8.2	8.1
Posição	#18	#22
Confiabilidade	6.7	10.0
Consistência	9.6	8.8
Testes corretos
Taxa de acerto por tentativa	77.2%	77.2%
Testes instáveis	1	3
Execuções totais	57	57
Custo por resultado	0.158	4.107
Custo total	$0.023	$0.534
Preço de entrada	$0.120 / 1M	$0.195 / 1M
Preço de saída	$0.370 / 1M	$1.560 / 1M
Tokens de saída	14,426	2,531
Tokens de raciocínio	37,964	266,183
Tempo de resposta (médio)	28.72s	54.71s
Tempo de resposta (máx.)	90.14s	163.96s
Tempo de resposta (total)	488.27s	1039.57s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	569	31,505

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	4.7	1.6	66.7%	1		70.97s	3,166	5,449
Qwen3.5-27B	10.0	10.0	100.0%	0		70.35s	375	19,165

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	270	16,150

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	43	52,368

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	70	23,147

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	9.9	10.0	100.0%	0		27.63s	1,797	5,596
Qwen3.5-27B	8.2	7.7	77.8%	1		64.61s	245	77,213

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemma 4 31B	3.0	10.0	0.0%	0		90.14s	1,692	10,014
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	31	23,683

Comparação rápida

Trocar par de comparação

Gemini 3.5 FlashminimalvsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3.1 Flash LitelowvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium DeepSeek V4 FlashhighDisponível grátisvsQwen3.5-27Bmedium Gemma 4 31BmediumDisponível grátisvsGPT-5.2 Chatnone Gemma 4 31BmediumDisponível grátisvsGPT-5.5low Gemma 4 31BmediumDisponível grátisvsGPT-5.3 Chatnone DeepSeek V4 FlashhighDisponível grátisvsGemma 4 31BmediumDisponível grátis