Ranking de falhas por Chamada de ferramenta inválida

Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

100

Modelo mais afetado

Granite 4.1 8B 2

Categorias

Na categoria Combinado91 Na categoria Chamada de ferramentas9

83/83

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#173	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Total de testes 22 Testes errados 16 Custo total $0.054 Tempo de resposta (médio) 18.3s
#176	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
Total de testes 22 Testes errados 16 Custo total $0.016 Tempo de resposta (médio) 9.15s
#178	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
Total de testes 22 Testes errados 16 Custo total $0.002 Tempo de resposta (médio) 10.7s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
Total de testes 21 Testes errados 15 Custo total $0.000 Tempo de resposta (médio) 1.27s
#198	Laguna Xs.2 medium	Poolside	1	4.1	$0.015	6/19	6.73s
Total de testes 19 Testes errados 13 Custo total $0.015 Tempo de resposta (médio) 6.73s
#124	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
Total de testes 22 Testes errados 15 Custo total $0.062 Tempo de resposta (médio) 3.74s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.1	$0.106	7/22	12.7s
Total de testes 22 Testes errados 15 Custo total $0.106 Tempo de resposta (médio) 12.7s
#151	GLM 5.1 none	Z.ai	1	5.5	$0.164	7/22	6.70s
Total de testes 22 Testes errados 15 Custo total $0.164 Tempo de resposta (médio) 6.70s
#152	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Total de testes 22 Testes errados 15 Custo total $0.087 Tempo de resposta (médio) 10.7s
#188	Cobuddy medium	Baidu	1	4.7	$0.000	7/21	39.9s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 39.9s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Total de testes 18 Testes errados 12 Custo total $0.087 Tempo de resposta (médio) 1.19s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#125	Qwen3.5-Flash none	Qwen	1	6.1	$0.073	8/22	25.3s
Total de testes 22 Testes errados 14 Custo total $0.073 Tempo de resposta (médio) 25.3s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Total de testes 22 Testes errados 14 Custo total $0.349 Tempo de resposta (médio) 1.65s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Total de testes 22 Testes errados 14 Custo total $0.015 Tempo de resposta (médio) 7.64s

←

1 2 3 4 5 6

→

Falhas por Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)