Ranking de falhas por Chamada de ferramenta inválida

Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

100

Modelo mais afetado

Gemini 3.5 Flash 1

Categorias

Na categoria Combinado91 Na categoria Chamada de ferramentas9

83/83

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#110	Gemma 4 31B medium	Google	1	6.3	$0.163	14/22	75.4s
Total de testes 22 Testes errados 8 Custo total $0.163 Tempo de resposta (médio) 75.4s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	13/22	11.5s
Total de testes 22 Testes errados 9 Custo total $0.647 Tempo de resposta (médio) 11.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	7.7	$0.042	13/22	49.7s
Total de testes 22 Testes errados 9 Custo total $0.042 Tempo de resposta (médio) 49.7s
#51	Nemotron 3 Ultra medium	NVIDIA	1	7.5	$0.774	13/22	32.2s
Total de testes 22 Testes errados 9 Custo total $0.774 Tempo de resposta (médio) 32.2s
#55	GPT-5.6 Terra low	OpenAI	1	7.5	$0.519	13/22	5.31s
Total de testes 22 Testes errados 9 Custo total $0.519 Tempo de resposta (médio) 5.31s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total de testes 22 Testes errados 9 Custo total $1.627 Tempo de resposta (médio) 111.9s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Total de testes 22 Testes errados 9 Custo total $0.115 Tempo de resposta (médio) 4.61s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Total de testes 22 Testes errados 9 Custo total $0.117 Tempo de resposta (médio) 4.27s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Total de testes 22 Testes errados 9 Custo total $0.746 Tempo de resposta (médio) 58.1s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
Total de testes 22 Testes errados 9 Custo total $0.646 Tempo de resposta (médio) 16.7s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Total de testes 22 Testes errados 10 Custo total $1.694 Tempo de resposta (médio) 31.5s
#56	GPT-5.4 Mini medium	OpenAI	1	7.5	$0.756	12/22	25.9s
Total de testes 22 Testes errados 10 Custo total $0.756 Tempo de resposta (médio) 25.9s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	12/22	20.7s
Total de testes 22 Testes errados 10 Custo total $0.454 Tempo de resposta (médio) 20.7s
#68	Kimi K2.6 medium	Moonshot AI	1	7.2	$1.036	12/22	110.0s
Total de testes 22 Testes errados 10 Custo total $1.036 Tempo de resposta (médio) 110.0s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Total de testes 22 Testes errados 10 Custo total $0.777 Tempo de resposta (médio) 29.5s

←

1 2 3 4 5 6

→

Falhas por Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)