Ranking de Resolução de quebra-cabeças x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

204

Modelo mais afetado

Qwen3.5-Flash 3

Motivos de falha

Resposta incorreta204 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Específico do domínio421 Truques anti-IA293 Programação259 Resolução de quebra-cabeças204 Conhecimentos gerais172 Combinado69 Inteligência geral62 Seguimento de instruções61 Análise e extração de dados41 Chamada de ferramentas3

145/145

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
Total de testes 3 Testes errados 1 Custo total $0.187 Tempo de resposta (médio) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
Total de testes 3 Testes errados 1 Custo total $0.676 Tempo de resposta (médio) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
Total de testes 3 Testes errados 1 Custo total $3.059 Tempo de resposta (médio) 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
Total de testes 3 Testes errados 1 Custo total $1.017 Tempo de resposta (médio) 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total de testes 3 Testes errados 2 Custo total $0.200 Tempo de resposta (médio) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
Total de testes 3 Testes errados 1 Custo total $0.286 Tempo de resposta (médio) 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
Total de testes 3 Testes errados 1 Custo total $1.097 Tempo de resposta (médio) 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
Total de testes 3 Testes errados 1 Custo total $0.352 Tempo de resposta (médio) 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
Total de testes 3 Testes errados 2 Custo total $0.740 Tempo de resposta (médio) 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
Total de testes 3 Testes errados 1 Custo total $0.115 Tempo de resposta (médio) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
Total de testes 3 Testes errados 1 Custo total $0.117 Tempo de resposta (médio) 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Total de testes 3 Testes errados 2 Custo total $1.036 Tempo de resposta (médio) 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
Total de testes 3 Testes errados 1 Custo total $0.482 Tempo de resposta (médio) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
Total de testes 3 Testes errados 1 Custo total $0.317 Tempo de resposta (médio) 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
Total de testes 3 Testes errados 1 Custo total $0.106 Tempo de resposta (médio) 1.71s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado