Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
Total de testes 1 Testes errados 0 Custo total $0.971 Tempo de resposta (médio) 7.56s
#57	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.138	1/1	7.71s
Total de testes 1 Testes errados 0 Custo total $0.138 Tempo de resposta (médio) 7.71s
#55	Nemotron 3 Ultra medium	NVIDIA	10.0	7.5	$0.774	1/1	7.72s
Total de testes 1 Testes errados 0 Custo total $0.774 Tempo de resposta (médio) 7.72s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
Total de testes 1 Testes errados 0 Custo total $2.310 Tempo de resposta (médio) 7.73s
#115	Mimo V2 PRO medium	Xiaomi	10.0	6.3	$0.333	1/1	8.19s
Total de testes 1 Testes errados 0 Custo total $0.333 Tempo de resposta (médio) 8.19s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
Total de testes 1 Testes errados 0 Custo total $0.047 Tempo de resposta (médio) 8.21s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 8.26s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
Total de testes 1 Testes errados 0 Custo total $0.571 Tempo de resposta (médio) 8.36s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
Total de testes 1 Testes errados 0 Custo total $0.831 Tempo de resposta (médio) 8.55s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
Total de testes 1 Testes errados 0 Custo total $1.036 Tempo de resposta (médio) 8.92s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
Total de testes 1 Testes errados 0 Custo total $1.931 Tempo de resposta (médio) 8.96s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
Total de testes 1 Testes errados 0 Custo total $0.089 Tempo de resposta (médio) 9.01s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
Total de testes 1 Testes errados 0 Custo total $0.817 Tempo de resposta (médio) 9.25s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	1/1	9.54s
Total de testes 1 Testes errados 0 Custo total $0.646 Tempo de resposta (médio) 9.54s
#60	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
Total de testes 1 Testes errados 1 Custo total $0.756 Tempo de resposta (médio) 9.62s

←

1 9 10 11 15

→

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)