Ranking de modelos de Resolução de quebra-cabeças

Veja quais modelos de IA vão melhor em Resolução de quebra-cabeças, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Resolução de quebra-cabeças

6.7

Melhor modelo

Step 3.5 Flash 0.0

Motivos de falha

Com motivo de falha Resposta incorreta204 Com motivo de falha Não seguiu as instruções90 Com motivo de falha Erro de API12 Com motivo de falha Formatação extra8 Com motivo de falha Tempo esgotado5 Com motivo de falha Sem resposta3

216/216

Posição	Modelo	Empresa	Pontuação de Resolução de quebra-cabeças	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
Total de testes 3 Testes errados 1 Custo total $0.117 Tempo de resposta (médio) 1.95s
#189	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
Total de testes 3 Testes errados 3 Custo total $0.008 Tempo de resposta (médio) 1.97s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
Total de testes 3 Testes errados 2 Custo total $0.122 Tempo de resposta (médio) 1.97s
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
Total de testes 3 Testes errados 2 Custo total $0.025 Tempo de resposta (médio) 2.13s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
Total de testes 3 Testes errados 2 Custo total $0.047 Tempo de resposta (médio) 2.15s
#173	Mistral Small 4 medium	Mistral	3.4	5.1	$0.096	0/3	2.17s
Total de testes 3 Testes errados 3 Custo total $0.096 Tempo de resposta (médio) 2.17s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	3/3	2.35s
Total de testes 3 Testes errados 0 Custo total $0.433 Tempo de resposta (médio) 2.35s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
Total de testes 3 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 2.36s
#140	Mimo V2 Omni medium	Xiaomi	5.9	5.9	$0.683	1/3	2.38s
Total de testes 3 Testes errados 2 Custo total $0.683 Tempo de resposta (médio) 2.38s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
Total de testes 3 Testes errados 1 Custo total $0.642 Tempo de resposta (médio) 2.38s
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.40s
Total de testes 3 Testes errados 2 Custo total $0.052 Tempo de resposta (médio) 2.40s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	3/3	2.43s
Total de testes 3 Testes errados 0 Custo total $1.477 Tempo de resposta (médio) 2.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	3/3	2.46s
Total de testes 3 Testes errados 0 Custo total $0.505 Tempo de resposta (médio) 2.46s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
Total de testes 3 Testes errados 3 Custo total $0.077 Tempo de resposta (médio) 2.47s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	3/3	2.53s
Total de testes 3 Testes errados 0 Custo total $0.831 Tempo de resposta (médio) 2.53s

Ranking de Resolução de quebra-cabeças

Filtrar modelos

Melhores modelos por Pontuação de Resolução de quebra-cabeças

Pontuação de Resolução de quebra-cabeças vs custo total

Melhores modelos por Tempo de resposta (médio)