Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.7

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

210/210

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Total de testes 1 Testes errados 1 Custo total $0.001 Tempo de resposta (médio) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
Total de testes 1 Testes errados 0 Custo total $0.030 Tempo de resposta (médio) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Total de testes 1 Testes errados 0 Custo total $0.021 Tempo de resposta (médio) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Total de testes 1 Testes errados 0 Custo total $0.008 Tempo de resposta (médio) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Total de testes 1 Testes errados 0 Custo total $0.022 Tempo de resposta (médio) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
Total de testes 1 Testes errados 0 Custo total $0.093 Tempo de resposta (médio) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
Total de testes 1 Testes errados 0 Custo total $0.017 Tempo de resposta (médio) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Total de testes 1 Testes errados 1 Custo total $0.004 Tempo de resposta (médio) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Total de testes 1 Testes errados 0 Custo total $0.247 Tempo de resposta (médio) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
Total de testes 1 Testes errados 0 Custo total $0.007 Tempo de resposta (médio) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
Total de testes 1 Testes errados 0 Custo total $0.106 Tempo de resposta (médio) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Total de testes 1 Testes errados 1 Custo total $0.095 Tempo de resposta (médio) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Total de testes 1 Testes errados 0 Custo total $0.025 Tempo de resposta (médio) 2.47s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)