Ranking de Chamada de ferramentas x Erro de API

Veja quais modelos de IA têm mais chance de encontrar Erro de API em Chamada de ferramentas, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Kimi K3 1

Motivos de falha

Erro de API17 Chamada de ferramenta inválida9 Não seguiu as instruções8 Resposta incorreta3 Sem resposta2

Categorias

Programação45 Combinado26 Chamada de ferramentas17 Análise e extração de dados14 Truques anti-IA14 Conhecimentos gerais13 Inteligência geral12 Resolução de quebra-cabeças12 Específico do domínio7 Seguimento de instruções1

17/17

Posição	Modelo	Empresa	Contagem de Erro de API	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $3.112 Tempo de resposta (médio) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.751 Tempo de resposta (médio) 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.535 Tempo de resposta (médio) 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $1.079 Tempo de resposta (médio) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.746 Tempo de resposta (médio) 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.163 Tempo de resposta (médio) 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.035 Tempo de resposta (médio) 0ms
#153	Hy3 preview low	Tencent	1	2.8	$0.015	0/1	17.8s
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 17.8s
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.061 Tempo de resposta (médio) 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.026 Tempo de resposta (médio) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $5.599 Tempo de resposta (médio) 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.547 Tempo de resposta (médio) 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.010 Tempo de resposta (médio) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 0ms

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Chamada de ferramentas: Erro de API

Filtrar modelos

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado