Ranking de falhas por Chamada de ferramenta inválida

Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

Falhas totais

100

Modelo mais afetado

Gemini 3.5 Flash 1

Categorias

Na categoria Combinado91 Na categoria Chamada de ferramentas9

83/83

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Total de testes 22 Testes errados 2 Custo total $1.976 Tempo de resposta (médio) 15.1s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
Total de testes 22 Testes errados 3 Custo total $0.433 Tempo de resposta (médio) 5.55s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
Total de testes 22 Testes errados 4 Custo total $1.116 Tempo de resposta (médio) 40.6s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
Total de testes 22 Testes errados 5 Custo total $3.478 Tempo de resposta (médio) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Total de testes 22 Testes errados 6 Custo total $0.922 Tempo de resposta (médio) 12.5s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
Total de testes 22 Testes errados 7 Custo total $1.357 Tempo de resposta (médio) 25.0s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
Total de testes 22 Testes errados 7 Custo total $1.006 Tempo de resposta (médio) 64.2s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
Total de testes 22 Testes errados 7 Custo total $0.391 Tempo de resposta (médio) 16.2s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Total de testes 22 Testes errados 7 Custo total $0.267 Tempo de resposta (médio) 51.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
Total de testes 22 Testes errados 8 Custo total $0.515 Tempo de resposta (médio) 26.4s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
Total de testes 22 Testes errados 8 Custo total $1.055 Tempo de resposta (médio) 11.3s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
Total de testes 22 Testes errados 8 Custo total $0.437 Tempo de resposta (médio) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	1	7.1	$1.046	14/22	64.2s
Total de testes 22 Testes errados 8 Custo total $1.046 Tempo de resposta (médio) 64.2s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
Total de testes 22 Testes errados 8 Custo total $0.300 Tempo de resposta (médio) 2.65s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
Total de testes 22 Testes errados 8 Custo total $0.089 Tempo de resposta (médio) 103.8s

1 2 3 4 5 6

→

Falhas por Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)