Ranking de modelos de Resolução de quebra-cabeças

Veja quais modelos de IA vão melhor em Resolução de quebra-cabeças, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↑.

Modelos exibidos

Média de Pontuação de Resolução de quebra-cabeças

6.7

Melhor modelo

GPT-5.4 Nano 4.1

Motivos de falha

Com motivo de falha Resposta incorreta201 Com motivo de falha Não seguiu as instruções90 Com motivo de falha Erro de API12 Com motivo de falha Formatação extra8 Com motivo de falha Tempo esgotado5 Com motivo de falha Sem resposta3

210/210

Posição	Modelo	Empresa	Pontuação de Resolução de quebra-cabeças	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#53	GPT-5.4 Nano medium	OpenAI	4.1	7.5	$0.138	0/3	3.79s
Total de testes 3 Testes errados 3 Custo total $0.138 Tempo de resposta (médio) 3.79s
#91	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 8.15s
#97	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
Total de testes 3 Testes errados 3 Custo total $0.469 Tempo de resposta (médio) 9.18s
#111	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 2.74s
#124	Qwen3.6 Flash none	Qwen	3.5	6.1	$0.062	0/3	1.21s
Total de testes 3 Testes errados 3 Custo total $0.062 Tempo de resposta (médio) 1.21s
#125	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
Total de testes 3 Testes errados 3 Custo total $0.073 Tempo de resposta (médio) 10.9s
#127	Qwen3.5-35B-A3B none	Qwen	3.7	6.1	$0.106	0/3	1.35s
Total de testes 3 Testes errados 3 Custo total $0.106 Tempo de resposta (médio) 1.35s
#137	North Mini Code medium	Cohere	3.3	5.9	$0.000	0/3	19.7s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 19.7s
#138	Kimi K2.6 none	Moonshot AI	3.1	5.8	$0.184	0/3	1.40s
Total de testes 3 Testes errados 3 Custo total $0.184 Tempo de resposta (médio) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.050	0/3	3.15s
Total de testes 3 Testes errados 3 Custo total $0.050 Tempo de resposta (médio) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	3.8	5.7	$0.247	0/3	1.00s
Total de testes 3 Testes errados 3 Custo total $0.247 Tempo de resposta (médio) 1.00s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
Total de testes 3 Testes errados 3 Custo total $0.077 Tempo de resposta (médio) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
Total de testes 3 Testes errados 3 Custo total $0.048 Tempo de resposta (médio) 1.87s
#150	DeepSeek V4 Flash none	DeepSeek	3.1	5.6	$0.044	0/3	23.7s
Total de testes 3 Testes errados 3 Custo total $0.044 Tempo de resposta (médio) 23.7s
#155	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.127	0/3	4.04s
Total de testes 3 Testes errados 3 Custo total $0.127 Tempo de resposta (médio) 4.04s

Ranking de Resolução de quebra-cabeças

Filtrar modelos

Melhores modelos por Pontuação de Resolução de quebra-cabeças

Pontuação de Resolução de quebra-cabeças vs custo total

Melhores modelos por Tempo de resposta (médio)