Ranking de Resolução de quebra-cabeças x Erro de API

Veja quais modelos de IA têm mais chance de encontrar Erro de API em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Laguna M.1 1

Motivos de falha

Resposta incorreta201 Não seguiu as instruções90 Erro de API12 Formatação extra8 Tempo esgotado5 Sem resposta3

Categorias

Programação45 Combinado26 Chamada de ferramentas17 Análise e extração de dados14 Truques anti-IA14 Conhecimentos gerais13 Inteligência geral12 Resolução de quebra-cabeças12 Específico do domínio7 Seguimento de instruções1

11/11

Posição	Modelo	Empresa	Contagem de Erro de API	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
Total de testes 3 Testes errados 3 Custo total $0.009 Tempo de resposta (médio) 891ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 1.40s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Total de testes 3 Testes errados 3 Custo total $0.000 Tempo de resposta (médio) 532ms
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
Total de testes 3 Testes errados 3 Custo total $0.001 Tempo de resposta (médio) 1.78s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 7.51s
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
Total de testes 3 Testes errados 2 Custo total $0.000 Tempo de resposta (médio) 7.52s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
Total de testes 3 Testes errados 2 Custo total $0.033 Tempo de resposta (médio) 10.2s
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
Total de testes 3 Testes errados 2 Custo total $0.015 Tempo de resposta (médio) 1.93s
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
Total de testes 3 Testes errados 2 Custo total $0.004 Tempo de resposta (médio) 650ms
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
Total de testes 3 Testes errados 1 Custo total $0.048 Tempo de resposta (médio) 27.9s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
Total de testes 3 Testes errados 1 Custo total $0.054 Tempo de resposta (médio) 6.91s

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Resolução de quebra-cabeças: Erro de API

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado