Ranking de Inteligência geral x Erro de API

Veja quais modelos de IA têm mais chance de encontrar Erro de API em Inteligência geral, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Nemotron 3 Ultra 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Programação45 Combinado26 Chamada de ferramentas17 Análise e extração de dados14 Truques anti-IA14 Conhecimentos gerais13 Inteligência geral12 Resolução de quebra-cabeças12 Específico do domínio7 Seguimento de instruções1

12/12

Posição	Modelo	Empresa	Contagem de Erro de API	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#51	Nemotron 3 Ultra medium	NVIDIA	1	3.7	$0.774	0/1	2.52s
Total de testes 1 Testes errados 1 Custo total $0.774 Tempo de resposta (médio) 2.52s
#76	DeepSeek V3.2 medium	DeepSeek	1	3.4	$0.078	0/1	58.3s
Total de testes 1 Testes errados 1 Custo total $0.078 Tempo de resposta (médio) 58.3s
#135	Hy3 preview high	Tencent	1	3.0	$0.048	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.048 Tempo de resposta (médio) 0ms
#153	Hy3 preview low	Tencent	1	3.0	$0.015	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 0ms
#173	DeepSeek V3.2 none	DeepSeek	1	4.7	$0.054	0/1	9.32s
Total de testes 1 Testes errados 1 Custo total $0.054 Tempo de resposta (médio) 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.033 Tempo de resposta (médio) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.009 Tempo de resposta (médio) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Erro de API

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado