Ranking de Resolução de quebra-cabeças x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

201

Modelo mais afetado

Qwen3.6 27B 1

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

142/142

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#99	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
Total de testes 3 Testes errados 1 Custo total $0.779 Tempo de resposta (médio) 61.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total de testes 3 Testes errados 2 Custo total $0.200 Tempo de resposta (médio) 56.8s
#47	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
Total de testes 3 Testes errados 1 Custo total $0.286 Tempo de resposta (médio) 49.9s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total de testes 3 Testes errados 2 Custo total $0.600 Tempo de resposta (médio) 43.2s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
Total de testes 3 Testes errados 2 Custo total $0.751 Tempo de resposta (médio) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total de testes 3 Testes errados 2 Custo total $0.078 Tempo de resposta (médio) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
Total de testes 3 Testes errados 2 Custo total $0.970 Tempo de resposta (médio) 33.7s
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/3	32.3s
Total de testes 3 Testes errados 3 Custo total $0.036 Tempo de resposta (médio) 32.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Total de testes 3 Testes errados 1 Custo total $0.101 Tempo de resposta (médio) 31.8s
#74	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Total de testes 3 Testes errados 1 Custo total $0.535 Tempo de resposta (médio) 31.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Total de testes 3 Testes errados 2 Custo total $1.036 Tempo de resposta (médio) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Total de testes 3 Testes errados 2 Custo total $0.163 Tempo de resposta (médio) 24.9s
#171	North Mini Code none	Cohere	1	3.5	$0.000	0/3	24.4s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 24.4s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
Total de testes 3 Testes errados 3 Custo total $0.025 Tempo de resposta (médio) 24.3s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 23.7s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado