Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	1/1	9.73s
Total de testes 1 Testes errados 0 Custo total $3.059 Tempo de resposta (médio) 9.73s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
Total de testes 1 Testes errados 0 Custo total $1.785 Tempo de resposta (médio) 9.76s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	1/1	9.84s
Total de testes 1 Testes errados 0 Custo total $0.323 Tempo de resposta (médio) 9.84s
#30	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
Total de testes 1 Testes errados 0 Custo total $1.694 Tempo de resposta (médio) 9.88s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
Total de testes 1 Testes errados 0 Custo total $0.469 Tempo de resposta (médio) 10.0s
#24	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
Total de testes 1 Testes errados 1 Custo total $0.951 Tempo de resposta (médio) 10.3s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
Total de testes 1 Testes errados 0 Custo total $0.139 Tempo de resposta (médio) 10.3s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
Total de testes 1 Testes errados 0 Custo total $4.137 Tempo de resposta (médio) 10.6s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
Total de testes 1 Testes errados 0 Custo total $0.478 Tempo de resposta (médio) 10.7s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
Total de testes 1 Testes errados 0 Custo total $0.164 Tempo de resposta (médio) 10.7s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
Total de testes 1 Testes errados 0 Custo total $0.922 Tempo de resposta (médio) 10.7s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
Total de testes 1 Testes errados 0 Custo total $0.391 Tempo de resposta (médio) 10.8s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 11.1s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 11.2s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
Total de testes 1 Testes errados 0 Custo total $0.054 Tempo de resposta (médio) 11.8s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)