Ranking de modelos de Resolução de quebra-cabeças

Veja quais modelos de IA vão melhor em Resolução de quebra-cabeças, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Resolução de quebra-cabeças

6.7

Melhor modelo

Muse Spark 1.1 7.8

Motivos de falha

Com motivo de falha Resposta incorreta204 Com motivo de falha Não seguiu as instruções90 Com motivo de falha Erro de API12 Com motivo de falha Formatação extra8 Com motivo de falha Tempo esgotado5 Com motivo de falha Sem resposta3

216/216

Posição	Modelo	Empresa	Pontuação de Resolução de quebra-cabeças	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#106	Hy3 preview medium	Tencent	7.7	6.5	$0.018	2/3	11.1s
Total de testes 3 Testes errados 1 Custo total $0.018 Tempo de resposta (médio) 11.1s
#131	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
Total de testes 3 Testes errados 3 Custo total $0.073 Tempo de resposta (médio) 10.9s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
Total de testes 3 Testes errados 2 Custo total $1.006 Tempo de resposta (médio) 10.7s
#98	GLM 5V Turbo medium	Z.ai	7.7	6.7	$0.457	2/3	10.2s
Total de testes 3 Testes errados 1 Custo total $0.457 Tempo de resposta (médio) 10.2s
#39	Seed-2.0-Lite medium	Bytedance Seed	9.0	7.9	$0.234	2/3	10.2s
Total de testes 3 Testes errados 1 Custo total $0.234 Tempo de resposta (médio) 10.2s
#90	Step 3.7 Flash high	Stepfun	5.3	6.9	$1.207	1/3	10.2s
Total de testes 3 Testes errados 2 Custo total $1.207 Tempo de resposta (médio) 10.2s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
Total de testes 3 Testes errados 2 Custo total $0.033 Tempo de resposta (médio) 10.2s
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
Total de testes 3 Testes errados 2 Custo total $0.547 Tempo de resposta (médio) 9.55s
#102	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
Total de testes 3 Testes errados 3 Custo total $0.469 Tempo de resposta (médio) 9.18s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
Total de testes 3 Testes errados 1 Custo total $1.533 Tempo de resposta (médio) 9.14s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
Total de testes 3 Testes errados 2 Custo total $0.478 Tempo de resposta (médio) 8.84s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	3/3	8.84s
Total de testes 3 Testes errados 0 Custo total $1.116 Tempo de resposta (médio) 8.84s
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
Total de testes 3 Testes errados 2 Custo total $0.010 Tempo de resposta (médio) 8.21s
#96	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
Total de testes 3 Testes errados 3 Custo total $0.391 Tempo de resposta (médio) 8.15s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	3/3	7.88s
Total de testes 3 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 7.88s

Ranking de Resolução de quebra-cabeças

Filtrar modelos

Melhores modelos por Pontuação de Resolução de quebra-cabeças

Pontuação de Resolução de quebra-cabeças vs custo total

Melhores modelos por Tempo de resposta (médio)