Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
Total de testes 1 Testes errados 0 Custo total $0.021 Tempo de resposta (médio) 5.40s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 4.47s
#165	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
Total de testes 1 Testes errados 0 Custo total $0.142 Tempo de resposta (médio) 2.80s
#166	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Total de testes 1 Testes errados 0 Custo total $0.008 Tempo de resposta (médio) 1.36s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
Total de testes 1 Testes errados 0 Custo total $2.310 Tempo de resposta (médio) 7.73s
#171	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Total de testes 1 Testes errados 0 Custo total $0.022 Tempo de resposta (médio) 1.40s
#172	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.47s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
Total de testes 1 Testes errados 0 Custo total $0.096 Tempo de resposta (médio) 3.50s
#174	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.43s
#175	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Total de testes 1 Testes errados 0 Custo total $0.021 Tempo de resposta (médio) 1.27s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
Total de testes 1 Testes errados 0 Custo total $0.047 Tempo de resposta (médio) 8.21s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
Total de testes 1 Testes errados 0 Custo total $0.054 Tempo de resposta (médio) 11.8s
#180	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
Total de testes 1 Testes errados 0 Custo total $0.010 Tempo de resposta (médio) 2.51s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 5.87s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 3.40s

←

1 9 10 11 15

→

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)