Ranking de modelos de Chamada de ferramentas

Categoria AI BENCHY

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.7

Melhor modelo

Gemini 3 Flash Preview 10.0

Motivos de falha

Com motivo de falha Erro de API15 Com motivo de falha Chamada de ferramenta inválida7 Com motivo de falha Não seguiu as instruções6 Com motivo de falha Resposta incorreta2 Com motivo de falha Sem resposta2

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Testes corretos	Tempo de resposta (médio)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	1/1	12.6s
#2	Gemini 3.5 Flash high	Google	9.8	9.6	1/1	4.96s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	3.27s
#4	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	1/1	23.1s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	1/1	6.63s
#6	GPT-5.5 low	OpenAI	10.0	9.0	1/1	4.96s
#7	Gemini 3.5 Flash medium	Google	10.0	9.0	1/1	3.81s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	1/1	4.74s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	1/1	10.6s
#10	Claude Opus 4.8 medium	Anthropic	10.0	8.7	1/1	8.96s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	1/1	4.17s
#12	Gemini 3.1 Flash Lite Preview high	Google	10.0	8.6	1/1	7.73s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	1/1	18.3s
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	6.37s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	1/1	4.99s

Ranking de Chamada de ferramentas

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)