Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
Total de testes 1 Testes errados 0 Custo total $0.052 Tempo de resposta (médio) 4.86s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
Total de testes 1 Testes errados 0 Custo total $1.976 Tempo de resposta (médio) 4.96s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
Total de testes 1 Testes errados 0 Custo total $1.253 Tempo de resposta (médio) 4.96s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	1/1	4.97s
Total de testes 1 Testes errados 0 Custo total $1.055 Tempo de resposta (médio) 4.97s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	1/1	4.98s
Total de testes 1 Testes errados 0 Custo total $1.017 Tempo de resposta (médio) 4.98s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	1/1	4.99s
Total de testes 1 Testes errados 0 Custo total $0.177 Tempo de resposta (médio) 4.99s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	1/1	5.09s
Total de testes 1 Testes errados 0 Custo total $0.676 Tempo de resposta (médio) 5.09s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
Total de testes 1 Testes errados 0 Custo total $0.067 Tempo de resposta (médio) 5.13s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
Total de testes 1 Testes errados 0 Custo total $0.231 Tempo de resposta (médio) 5.27s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
Total de testes 1 Testes errados 0 Custo total $1.166 Tempo de resposta (médio) 5.35s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
Total de testes 1 Testes errados 0 Custo total $0.021 Tempo de resposta (médio) 5.40s
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 5.51s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	1/1	5.66s
Total de testes 1 Testes errados 0 Custo total $0.621 Tempo de resposta (médio) 5.66s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
Total de testes 1 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 5.71s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
Total de testes 1 Testes errados 0 Custo total $0.935 Tempo de resposta (médio) 5.83s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)