Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#146	Nemotron 3 Super medium	NVIDIA	10.0	5.7	$0.055	1/1	39.7s
Total de testes 1 Testes errados 0 Custo total $0.055 Tempo de resposta (médio) 39.7s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 11.1s
#148	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Total de testes 1 Testes errados 0 Custo total $0.247 Tempo de resposta (médio) 2.04s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
Total de testes 1 Testes errados 0 Custo total $2.044 Tempo de resposta (médio) 6.44s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
Total de testes 1 Testes errados 0 Custo total $0.077 Tempo de resposta (médio) 4.77s
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
Total de testes 1 Testes errados 0 Custo total $0.052 Tempo de resposta (médio) 4.86s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 8.26s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
Total de testes 1 Testes errados 0 Custo total $0.045 Tempo de resposta (médio) 4.39s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 22.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
Total de testes 1 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 4.77s
#156	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.042	1/1	77.9s
Total de testes 1 Testes errados 0 Custo total $0.042 Tempo de resposta (médio) 77.9s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
Total de testes 1 Testes errados 0 Custo total $0.164 Tempo de resposta (médio) 10.7s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
Total de testes 1 Testes errados 0 Custo total $0.068 Tempo de resposta (médio) 3.30s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
Total de testes 1 Testes errados 0 Custo total $0.127 Tempo de resposta (médio) 14.0s
#162	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
Total de testes 1 Testes errados 0 Custo total $0.015 Tempo de resposta (médio) 57.1s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)