AI BENCHY Compare

Qwen: Qwen3.5-Flash vs xAI: Grok Build 0.1

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-28

Métrica	Qwen3.5-Flash Qwen3.5-Flash medium Lançamento: 2026-02-24	Grok Build 0.1 Grok Build 0.1 medium Lançamento: 2026-05-21

Métrica	Qwen3.5-Flash Qwen3.5-Flash medium Lançamento: 2026-02-24	Grok Build 0.1 Grok Build 0.1 medium Lançamento: 2026-05-21
Pontuação	7.6	7.7
Posição	#48	#43
Confiabilidade	10.0	10.0
Consistência	8.0	9.9
Testes corretos
Taxa de acerto por tentativa	75.0%	65.0%
Testes instáveis	5	0
Execuções totais	60	60
Custo por resultado	0.821	5.606
Custo total	$0.074	$0.729
Preço de entrada	$0.065 / 1M	$1.000 / 1M
Preço de saída	$0.260 / 1M	$2.000 / 1M
Tokens de saída	2,074	2,258
Tokens de raciocínio	272,063	341,381
Tempo de resposta (médio)	63.04s	42.39s
Tempo de resposta (máx.)	234.29s	252.69s
Tempo de resposta (total)	1197.71s	847.76s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	383	32,992
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	220	12,162

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	4.1	5.8	33.3%	1		54.23s	288	67,546
Grok Build 0.1	7.0	9.5	50.0%	0		62.62s	614	64,815

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	231	16,917

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	235	16,237
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	180	8,876

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	58	43,615
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	492	175,294

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	99	38,486
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	76	6,345

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	57	9,599

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	89	12,457
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	195	20,841

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	180	4,969

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	32	37,037
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	13	21,563

Comparação rápida

Trocar par de comparação

Gemini 3 Flash PreviewnonevsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium DeepSeek V4 FlashhighDisponível grátisvsQwen3.5-Flashmedium DeepSeek V4 FlashhighDisponível grátisvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGrok Build 0.1medium Gemini 3.1 Flash LitelowvsQwen3.5-Flashmedium GPT-5.2 ChatnonevsGrok Build 0.1medium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash LitelowvsGrok Build 0.1medium