Ranking de falhas por Chamada de ferramenta inválida

Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

100

Modelo mais afetado

Laguna Xs.2 1

Categorias

Na categoria Combinado91 Na categoria Chamada de ferramentas9

83/83

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Total de testes 22 Testes errados 18 Custo total $0.000 Tempo de resposta (médio) 29.9s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Total de testes 22 Testes errados 18 Custo total $0.021 Tempo de resposta (médio) 19.2s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Total de testes 22 Testes errados 16 Custo total $0.147 Tempo de resposta (médio) 3.50s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
Total de testes 22 Testes errados 18 Custo total $0.016 Tempo de resposta (médio) 8.58s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Total de testes 22 Testes errados 17 Custo total $0.008 Tempo de resposta (médio) 1.55s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Total de testes 22 Testes errados 16 Custo total $0.142 Tempo de resposta (médio) 1.50s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Total de testes 22 Testes errados 14 Custo total $0.015 Tempo de resposta (médio) 7.64s
#152	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Total de testes 22 Testes errados 15 Custo total $0.087 Tempo de resposta (médio) 10.7s
#151	GLM 5.1 none	Z.ai	1	5.5	$0.164	7/22	6.70s
Total de testes 22 Testes errados 15 Custo total $0.164 Tempo de resposta (médio) 6.70s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Total de testes 22 Testes errados 17 Custo total $0.044 Tempo de resposta (médio) 36.8s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.7	$0.247	6/22	12.9s
Total de testes 22 Testes errados 16 Custo total $0.247 Tempo de resposta (médio) 12.9s
#137	North Mini Code medium	Cohere	1	5.9	$0.000	9/22	137.1s
Total de testes 22 Testes errados 13 Custo total $0.000 Tempo de resposta (médio) 137.1s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Total de testes 22 Testes errados 14 Custo total $0.349 Tempo de resposta (médio) 1.65s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.1	$0.106	7/22	12.7s
Total de testes 22 Testes errados 15 Custo total $0.106 Tempo de resposta (médio) 12.7s
#125	Qwen3.5-Flash none	Qwen	1	6.1	$0.073	8/22	25.3s
Total de testes 22 Testes errados 14 Custo total $0.073 Tempo de resposta (médio) 25.3s

←

1 2 3 4 5 6

→

Falhas por Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)