Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

GPT-5.2 4.7

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
Total de testes 1 Testes errados 0 Custo total $1.316 Tempo de resposta (médio) 6.30s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
Total de testes 1 Testes errados 0 Custo total $1.234 Tempo de resposta (médio) 7.08s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
Total de testes 1 Testes errados 0 Custo total $1.253 Tempo de resposta (médio) 4.96s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
Total de testes 1 Testes errados 0 Custo total $1.361 Tempo de resposta (médio) 23.1s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
Total de testes 1 Testes errados 0 Custo total $1.116 Tempo de resposta (médio) 6.63s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
Total de testes 1 Testes errados 0 Custo total $0.642 Tempo de resposta (médio) 3.81s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
Total de testes 1 Testes errados 0 Custo total $4.137 Tempo de resposta (médio) 10.6s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
Total de testes 1 Testes errados 0 Custo total $0.433 Tempo de resposta (médio) 3.27s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
Total de testes 1 Testes errados 0 Custo total $1.707 Tempo de resposta (médio) 5.71s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
Total de testes 1 Testes errados 0 Custo total $0.920 Tempo de resposta (médio) 6.37s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
Total de testes 1 Testes errados 0 Custo total $1.931 Tempo de resposta (médio) 8.96s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
Total de testes 1 Testes errados 0 Custo total $1.477 Tempo de resposta (médio) 4.17s
#19	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
Total de testes 1 Testes errados 0 Custo total $1.357 Tempo de resposta (médio) 6.99s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	1/1	17.0s
Total de testes 1 Testes errados 0 Custo total $3.478 Tempo de resposta (médio) 17.0s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	1/1	13.3s
Total de testes 1 Testes errados 0 Custo total $1.533 Tempo de resposta (médio) 13.3s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)