AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs Qwen: Qwen3.6 Max Preview

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-08

Métrica	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lançamento: 2026-05-08	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lançamento: 2026-04-20

Métrica	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Lançamento: 2026-05-08	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lançamento: 2026-04-20
Pontuação	7.9	7.2
Posição	#27	#54
Confiabilidade	10.0	10.0
Consistência	9.1	9.1
Testes corretos
Taxa de acerto por tentativa	71.9%	64.9%
Testes instáveis	2	2
Execuções totais	57	57
Custo por resultado	0.452	0.755
Custo total	$0.059	$0.083
Preço de entrada	$0.250 / 1M	$1.040 / 1M
Preço de saída	$1.500 / 1M	$6.240 / 1M
Tokens de saída	2,224	4,751
Tokens de raciocínio	32,034	0
Tempo de resposta (médio)	3.14s	3.31s
Tempo de resposta (máx.)	10.87s	20.51s
Tempo de resposta (total)	59.62s	62.80s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	9.1	10.0	75.0%	0		2.39s	604	4,201
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.26s	429	2,712
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		10.87s	327	7,401
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	279	2,845
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		3.16s	15	5,165
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	84	1,142
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	9.9	10.0	100.0%	0		2.59s	75	3,320
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	7.6	7.2	77.8%	1		1.95s	165	2,450
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.55s	234	921
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		3.08s	12	1,877
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	19	0

Comparação rápida

Trocar par de comparação

Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.2mediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone DeepSeek V3.2mediumvsQwen3.6 Max Previewnone GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Gemini 3.1 Flash LitemediumvsGPT-5.2 Chatnone Qwen3.6 Max PreviewnonevsGLM 5V Turbomedium DeepSeek V4 FlashhighvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsGLM 5.1medium