Ranking de Resolução de quebra-cabeças x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

204

Modelo mais afetado

Qwen3.5-Flash 3

Motivos de falha

Resposta incorreta204 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

145/145

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Total de testes 3 Testes errados 2 Custo total $0.779 Tempo de resposta (médio) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Total de testes 3 Testes errados 1 Custo total $0.535 Tempo de resposta (médio) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
Total de testes 3 Testes errados 1 Custo total $0.777 Tempo de resposta (médio) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total de testes 3 Testes errados 2 Custo total $0.078 Tempo de resposta (médio) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total de testes 3 Testes errados 2 Custo total $0.600 Tempo de resposta (médio) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Total de testes 3 Testes errados 2 Custo total $0.093 Tempo de resposta (médio) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Total de testes 3 Testes errados 1 Custo total $0.101 Tempo de resposta (médio) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
Total de testes 3 Testes errados 1 Custo total $0.524 Tempo de resposta (médio) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Total de testes 3 Testes errados 2 Custo total $0.187 Tempo de resposta (médio) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
Total de testes 3 Testes errados 1 Custo total $0.544 Tempo de resposta (médio) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
Total de testes 3 Testes errados 1 Custo total $0.085 Tempo de resposta (médio) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
Total de testes 3 Testes errados 1 Custo total $0.746 Tempo de resposta (médio) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
Total de testes 3 Testes errados 1 Custo total $0.145 Tempo de resposta (médio) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
Total de testes 3 Testes errados 1 Custo total $0.476 Tempo de resposta (médio) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
Total de testes 3 Testes errados 1 Custo total $0.457 Tempo de resposta (médio) 10.2s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado