Ranking de Resolução de quebra-cabeças x Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

Falhas totais

201

Modelo mais afetado

Qwen3.5-Flash 3

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Específico do domínio412 Truques anti-IA293 Programação252 Resolução de quebra-cabeças201 Conhecimentos gerais168 Combinado68 Seguimento de instruções61 Inteligência geral59 Análise e extração de dados41 Chamada de ferramentas3

142/142

Posição	Modelo	Empresa	Contagem de Resposta incorreta	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#67	Step 3.7 Flash low	Stepfun	2	5.5	$0.454	1/3	1.84s
Total de testes 3 Testes errados 2 Custo total $0.454 Tempo de resposta (médio) 1.84s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2	5.9	$0.467	1/3	3.20s
Total de testes 3 Testes errados 2 Custo total $0.467 Tempo de resposta (médio) 3.20s
#86	Step 3.7 Flash high	Stepfun	2	5.3	$1.207	1/3	10.2s
Total de testes 3 Testes errados 2 Custo total $1.207 Tempo de resposta (médio) 10.2s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
Total de testes 3 Testes errados 3 Custo total $0.469 Tempo de resposta (médio) 9.18s
#102	Laguna XS 2.1 medium	Poolside	2	5.3	$0.068	1/3	3.43s
Total de testes 3 Testes errados 2 Custo total $0.068 Tempo de resposta (médio) 3.43s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 2.74s
#116	Seed-2.0-Lite none	Bytedance Seed	2	5.3	$0.066	1/3	2.78s
Total de testes 3 Testes errados 2 Custo total $0.066 Tempo de resposta (médio) 2.78s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
Total de testes 3 Testes errados 3 Custo total $0.062 Tempo de resposta (médio) 1.21s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.7	$0.122	1/3	1.97s
Total de testes 3 Testes errados 2 Custo total $0.122 Tempo de resposta (médio) 1.97s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
Total de testes 3 Testes errados 3 Custo total $0.106 Tempo de resposta (médio) 1.35s
#132	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	1.23s
Total de testes 3 Testes errados 2 Custo total $0.349 Tempo de resposta (médio) 1.23s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
Total de testes 3 Testes errados 3 Custo total $0.184 Tempo de resposta (médio) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
Total de testes 3 Testes errados 3 Custo total $0.050 Tempo de resposta (médio) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
Total de testes 3 Testes errados 3 Custo total $0.247 Tempo de resposta (médio) 1.00s

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Resposta incorreta

Filtrar modelos

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado