Ranking de falhas por Chamada de ferramenta inválida

Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↑.

Modelos exibidos

Falhas totais

100

Modelo mais afetado

Laguna Xs.2 1

Categorias

Na categoria Combinado91 Na categoria Chamada de ferramentas9

83/83

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Total de testes 19 Testes errados 14 Custo total $0.004 Tempo de resposta (médio) 806ms
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
Total de testes 22 Testes errados 20 Custo total $0.007 Tempo de resposta (médio) 1.45s
#198	Laguna Xs.2 medium	Poolside	1	4.1	$0.015	6/19	6.73s
Total de testes 19 Testes errados 13 Custo total $0.015 Tempo de resposta (médio) 6.73s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Total de testes 18 Testes errados 12 Custo total $0.057 Tempo de resposta (médio) 1.11s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
Total de testes 21 Testes errados 15 Custo total $0.000 Tempo de resposta (médio) 1.27s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Total de testes 22 Testes errados 18 Custo total $0.166 Tempo de resposta (médio) 142.6s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
Total de testes 21 Testes errados 16 Custo total $0.000 Tempo de resposta (médio) 1.22s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
Total de testes 19 Testes errados 15 Custo total $0.009 Tempo de resposta (médio) 2.89s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Total de testes 18 Testes errados 12 Custo total $0.087 Tempo de resposta (médio) 1.19s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
Total de testes 22 Testes errados 17 Custo total $0.340 Tempo de resposta (médio) 68.3s
#188	Cobuddy medium	Baidu	1	4.7	$0.000	7/21	39.9s
Total de testes 21 Testes errados 14 Custo total $0.000 Tempo de resposta (médio) 39.9s
#178	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
Total de testes 22 Testes errados 16 Custo total $0.002 Tempo de resposta (médio) 10.7s
#176	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
Total de testes 22 Testes errados 16 Custo total $0.016 Tempo de resposta (médio) 9.15s
#173	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Total de testes 22 Testes errados 16 Custo total $0.054 Tempo de resposta (médio) 18.3s
#172	MiniMax M2.7 medium	Minimax	1	5.0	$0.163	5/22	41.3s
Total de testes 22 Testes errados 17 Custo total $0.163 Tempo de resposta (médio) 41.3s

1 2 3 4 5 6

→

Falhas por Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)