Ranking de modelos de Resolução de quebra-cabeças

Veja quais modelos de IA vão melhor em Resolução de quebra-cabeças, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Resolução de quebra-cabeças

6.7

Melhor modelo

Muse Spark 1.1 7.8

Motivos de falha

Com motivo de falha Resposta incorreta204 Com motivo de falha Não seguiu as instruções90 Com motivo de falha Erro de API12 Com motivo de falha Formatação extra8 Com motivo de falha Tempo esgotado5 Com motivo de falha Sem resposta3

216/216

Posição	Modelo	Empresa	Pontuação de Resolução de quebra-cabeças	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
Total de testes 3 Testes errados 2 Custo total $0.548 Tempo de resposta (médio) 3.22s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
Total de testes 3 Testes errados 2 Custo total $0.467 Tempo de resposta (médio) 3.20s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	3/3	3.20s
Total de testes 3 Testes errados 0 Custo total $0.935 Tempo de resposta (médio) 3.20s
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
Total de testes 3 Testes errados 1 Custo total $0.643 Tempo de resposta (médio) 3.18s
#146	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.055	0/3	3.15s
Total de testes 3 Testes errados 3 Custo total $0.055 Tempo de resposta (médio) 3.15s
#83	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
Total de testes 3 Testes errados 0 Custo total $1.079 Tempo de resposta (médio) 3.13s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
Total de testes 3 Testes errados 2 Custo total $0.387 Tempo de resposta (médio) 3.11s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	3/3	3.04s
Total de testes 3 Testes errados 0 Custo total $1.785 Tempo de resposta (médio) 3.04s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
Total de testes 3 Testes errados 1 Custo total $0.476 Tempo de resposta (médio) 3.03s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
Total de testes 3 Testes errados 0 Custo total $2.077 Tempo de resposta (médio) 3.01s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
Total de testes 3 Testes errados 0 Custo total $0.571 Tempo de resposta (médio) 2.99s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
Total de testes 3 Testes errados 1 Custo total $1.316 Tempo de resposta (médio) 2.98s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
Total de testes 3 Testes errados 1 Custo total $0.922 Tempo de resposta (médio) 2.98s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
Total de testes 3 Testes errados 2 Custo total $0.187 Tempo de resposta (médio) 2.97s
#122	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
Total de testes 3 Testes errados 2 Custo total $0.066 Tempo de resposta (médio) 2.78s

Ranking de Resolução de quebra-cabeças

Filtrar modelos

Melhores modelos por Pontuação de Resolução de quebra-cabeças

Pontuação de Resolução de quebra-cabeças vs custo total

Melhores modelos por Tempo de resposta (médio)