Ranking de falhas por Chamada de ferramenta inválida

Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Contagem de falhas ↑.

Modelos exibidos

Falhas totais

100

Modelo mais afetado

Gemini 3.5 Flash 1

Categorias

Na categoria Combinado91 Na categoria Chamada de ferramentas9

83/83

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
Total de testes 22 Testes errados 8 Custo total $0.437 Tempo de resposta (médio) 89.2s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Total de testes 22 Testes errados 9 Custo total $0.115 Tempo de resposta (médio) 4.61s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Total de testes 22 Testes errados 9 Custo total $0.117 Tempo de resposta (médio) 4.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	12/22	20.7s
Total de testes 22 Testes errados 10 Custo total $0.454 Tempo de resposta (médio) 20.7s
#68	Kimi K2.6 medium	Moonshot AI	1	7.2	$1.036	12/22	110.0s
Total de testes 22 Testes errados 10 Custo total $1.036 Tempo de resposta (médio) 110.0s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	7.2	$0.482	11/22	20.8s
Total de testes 22 Testes errados 11 Custo total $0.482 Tempo de resposta (médio) 20.8s
#72	Qwen3.5-122B-A10B medium	Qwen	1	7.1	$1.046	14/22	64.2s
Total de testes 22 Testes errados 8 Custo total $1.046 Tempo de resposta (médio) 64.2s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Total de testes 22 Testes errados 10 Custo total $0.777 Tempo de resposta (médio) 29.5s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Total de testes 22 Testes errados 11 Custo total $0.078 Tempo de resposta (médio) 68.6s
#77	Kimi K2.5 medium	Moonshot AI	1	7.0	$0.600	10/22	99.0s
Total de testes 22 Testes errados 12 Custo total $0.600 Tempo de resposta (médio) 99.0s
#78	Mercury 2 medium	Inception	1	7.0	$0.093	10/22	2.72s
Total de testes 22 Testes errados 12 Custo total $0.093 Tempo de resposta (médio) 2.72s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Total de testes 22 Testes errados 12 Custo total $0.096 Tempo de resposta (médio) 11.6s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	6.9	$0.187	12/22	33.9s
Total de testes 22 Testes errados 10 Custo total $0.187 Tempo de resposta (médio) 33.9s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Total de testes 22 Testes errados 10 Custo total $0.738 Tempo de resposta (médio) 44.7s

←

1 2 3 4 5 6

→

Falhas por Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)