Ranking de Combinado x Erro de API

Veja quais modelos de IA têm mais chance de encontrar Erro de API em Combinado, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Gemini 3.5 Flash 2

Motivos de falha

Chamada de ferramenta inválida91 Resposta incorreta68 Sem resposta29 Erro de API26 Tempo esgotado5 Formatação extra1 Não seguiu as instruções1

Categorias

Programação45 Combinado26 Chamada de ferramentas17 Análise e extração de dados14 Truques anti-IA14 Conhecimentos gerais13 Inteligência geral12 Resolução de quebra-cabeças12 Específico do domínio7 Seguimento de instruções1

24/24

Posição	Modelo	Empresa	Contagem de Erro de API	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#79	Gemini 3.5 Flash none	Google	2	3.0	$1.079	0/2	0ms
Total de testes 2 Testes errados 2 Custo total $1.079 Tempo de resposta (médio) 0ms
#179	Ring-2.6-1T none	Inclusionai	2	3.0	$0.026	0/2	0ms
Total de testes 2 Testes errados 2 Custo total $0.026 Tempo de resposta (médio) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	1.5	$5.599	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $5.599 Tempo de resposta (médio) 0ms
#202	Grok Build 0.1 none	X AI	1	1.5	$0.547	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.547 Tempo de resposta (médio) 0ms
#206	gpt-oss-120b none	OpenAI	1	1.5	$0.010	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.010 Tempo de resposta (médio) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	1.5	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	1.5	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.020 Tempo de resposta (médio) 0ms
#210	LFM2-24B-A2B none	Liquid	1	1.5	$0.001	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.001 Tempo de resposta (médio) 0ms
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	19.6s
Total de testes 2 Testes errados 1 Custo total $0.048 Tempo de resposta (médio) 19.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Total de testes 2 Testes errados 2 Custo total $0.095 Tempo de resposta (médio) 21.1s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Total de testes 2 Testes errados 2 Custo total $0.035 Tempo de resposta (médio) 30.0s
#161	Qwen3.6 35B A3B none	Qwen	1	3.8	$0.061	0/2	39.5s
Total de testes 2 Testes errados 2 Custo total $0.061 Tempo de resposta (médio) 39.5s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.4	$0.041	1/2	55.9s
Total de testes 2 Testes errados 1 Custo total $0.041 Tempo de resposta (médio) 55.9s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
Total de testes 2 Testes errados 2 Custo total $0.067 Tempo de resposta (médio) 73.0s

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Combinado: Erro de API

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado