Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
Total de testes 1 Testes errados 0 Custo total $0.008 Tempo de resposta (médio) 6.67s
#59	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
Total de testes 1 Testes errados 1 Custo total $0.519 Tempo de resposta (médio) 6.69s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
Total de testes 1 Testes errados 0 Custo total $0.087 Tempo de resposta (médio) 6.74s
#118	Claude Sonnet 5 none	Anthropic	10.0	6.3	$0.548	1/1	6.80s
Total de testes 1 Testes errados 0 Custo total $0.548 Tempo de resposta (médio) 6.80s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	1/1	6.85s
Total de testes 1 Testes errados 0 Custo total $2.077 Tempo de resposta (médio) 6.85s
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
Total de testes 1 Testes errados 0 Custo total $0.019 Tempo de resposta (médio) 6.91s
#19	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
Total de testes 1 Testes errados 0 Custo total $1.357 Tempo de resposta (médio) 6.99s
#182	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
Total de testes 1 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 7.05s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
Total de testes 1 Testes errados 0 Custo total $1.234 Tempo de resposta (médio) 7.08s
#107	MiMo-V2.5 medium	Xiaomi	10.0	6.5	$0.082	1/1	7.29s
Total de testes 1 Testes errados 0 Custo total $0.082 Tempo de resposta (médio) 7.29s
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
Total de testes 1 Testes errados 0 Custo total $0.096 Tempo de resposta (médio) 7.40s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	1/1	7.45s
Total de testes 1 Testes errados 0 Custo total $1.627 Tempo de resposta (médio) 7.45s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	1/1	7.48s
Total de testes 1 Testes errados 0 Custo total $2.057 Tempo de resposta (médio) 7.48s
#198	Laguna M.1 none	Poolside	10.0	4.4	$0.009	1/1	7.54s
Total de testes 1 Testes errados 0 Custo total $0.009 Tempo de resposta (médio) 7.54s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	1/1	7.54s
Total de testes 1 Testes errados 0 Custo total $0.437 Tempo de resposta (médio) 7.54s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)