Ranking de modelos de Resolução de quebra-cabeças

Veja quais modelos de IA vão melhor em Resolução de quebra-cabeças, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↑.

Modelos exibidos

Média de Pontuação de Resolução de quebra-cabeças

6.7

Melhor modelo

GPT-5.4 Nano 4.1

Motivos de falha

Com motivo de falha Resposta incorreta204 Com motivo de falha Não seguiu as instruções90 Com motivo de falha Erro de API12 Com motivo de falha Formatação extra8 Com motivo de falha Tempo esgotado5 Com motivo de falha Sem resposta3

216/216

Posição	Modelo	Empresa	Pontuação de Resolução de quebra-cabeças	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#195	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
Total de testes 3 Testes errados 3 Custo total $0.030 Tempo de resposta (médio) 535ms
#198	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
Total de testes 3 Testes errados 3 Custo total $0.009 Tempo de resposta (médio) 891ms
#199	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 807ms
#200	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
Total de testes 3 Testes errados 3 Custo total $0.166 Tempo de resposta (médio) 12.9s
#205	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
Total de testes 3 Testes errados 3 Custo total $0.003 Tempo de resposta (médio) 4.56s
#207	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
Total de testes 3 Testes errados 3 Custo total $0.007 Tempo de resposta (médio) 608ms
#209	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
Total de testes 3 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 1.10s
#210	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
Total de testes 3 Testes errados 3 Custo total $0.036 Tempo de resposta (médio) 32.3s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 1.40s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 532ms
#215	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
Total de testes 0 Testes errados 0 Custo total $0.020 Tempo de resposta (médio) 0ms
#216	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
Total de testes 3 Testes errados 3 Custo total $0.001 Tempo de resposta (médio) 1.78s
#29	GPT-5 Mini medium	OpenAI	5.6	8.1	$0.237	1/3	15.2s
Total de testes 3 Testes errados 2 Custo total $0.237 Tempo de resposta (médio) 15.2s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
Total de testes 3 Testes errados 2 Custo total $1.006 Tempo de resposta (médio) 10.7s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
Total de testes 3 Testes errados 2 Custo total $0.515 Tempo de resposta (médio) 6.19s

Ranking de Resolução de quebra-cabeças

Filtrar modelos

Melhores modelos por Pontuação de Resolução de quebra-cabeças

Pontuação de Resolução de quebra-cabeças vs custo total

Melhores modelos por Tempo de resposta (médio)