Ranking de Combinado x Chamada de ferramenta inválida

Veja quais modelos de IA têm mais chance de encontrar Chamada de ferramenta inválida em Combinado, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

Laguna M.1 1

Motivos de falha

Chamada de ferramenta inválida91 Resposta incorreta68 Sem resposta29 Erro de API26 Tempo esgotado5 Formatação extra1 Não seguiu as instruções1

Categorias

Combinado91 Chamada de ferramentas9

77/77

Posição	Modelo	Empresa	Contagem de Chamada de ferramenta inválida	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
Total de testes 1 Testes errados 1 Custo total $0.009 Tempo de resposta (médio) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
Total de testes 1 Testes errados 1 Custo total $0.057 Tempo de resposta (médio) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
Total de testes 1 Testes errados 1 Custo total $0.087 Tempo de resposta (médio) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Total de testes 2 Testes errados 2 Custo total $0.142 Tempo de resposta (médio) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
Total de testes 2 Testes errados 2 Custo total $0.349 Tempo de resposta (médio) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
Total de testes 2 Testes errados 1 Custo total $0.093 Tempo de resposta (médio) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Total de testes 2 Testes errados 2 Custo total $0.007 Tempo de resposta (médio) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
Total de testes 2 Testes errados 1 Custo total $0.519 Tempo de resposta (médio) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Total de testes 2 Testes errados 2 Custo total $0.008 Tempo de resposta (médio) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Total de testes 2 Testes errados 2 Custo total $0.249 Tempo de resposta (médio) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
Total de testes 2 Testes errados 1 Custo total $1.055 Tempo de resposta (médio) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Total de testes 2 Testes errados 2 Custo total $0.300 Tempo de resposta (médio) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
Total de testes 1 Testes errados 1 Custo total $0.457 Tempo de resposta (médio) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
Total de testes 2 Testes errados 1 Custo total $0.115 Tempo de resposta (médio) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
Total de testes 2 Testes errados 1 Custo total $0.117 Tempo de resposta (médio) 18.5s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Combinado: Chamada de ferramenta inválida

Filtrar modelos

Melhores modelos por Contagem de Chamada de ferramenta inválida

Contagem de Chamada de ferramenta inválida vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado