Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#172	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.47s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
Total de testes 1 Testes errados 0 Custo total $0.096 Tempo de resposta (médio) 3.50s
#174	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.43s
#175	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Total de testes 1 Testes errados 0 Custo total $0.021 Tempo de resposta (médio) 1.27s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
Total de testes 1 Testes errados 0 Custo total $0.047 Tempo de resposta (médio) 8.21s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 3.64s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
Total de testes 1 Testes errados 0 Custo total $0.054 Tempo de resposta (médio) 11.8s
#180	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
Total de testes 1 Testes errados 0 Custo total $0.010 Tempo de resposta (médio) 2.51s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 5.87s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 3.40s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
Total de testes 1 Testes errados 0 Custo total $0.067 Tempo de resposta (médio) 5.13s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
Total de testes 1 Testes errados 0 Custo total $0.008 Tempo de resposta (médio) 6.67s
#190	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 17.3s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
Total de testes 1 Testes errados 0 Custo total $0.033 Tempo de resposta (médio) 6.31s
#193	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.032	1/1	2.64s
Total de testes 1 Testes errados 0 Custo total $0.032 Tempo de resposta (médio) 2.64s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)