Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.7

Melhor modelo

Ring-2.6-1T 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

210/210

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
Total de testes 1 Testes errados 0 Custo total $1.361 Tempo de resposta (médio) 23.1s
#148	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 22.8s
#38	GLM 5.2 medium	Z.ai	10.0	7.8	$0.222	1/1	20.4s
Total de testes 1 Testes errados 0 Custo total $0.222 Tempo de resposta (médio) 20.4s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	10.0	6.9	$0.467	1/1	19.0s
Total de testes 1 Testes errados 0 Custo total $0.467 Tempo de resposta (médio) 19.0s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
Total de testes 1 Testes errados 1 Custo total $0.002 Tempo de resposta (médio) 18.8s
#26	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	1/1	18.6s
Total de testes 1 Testes errados 0 Custo total $0.237 Tempo de resposta (médio) 18.6s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	1/1	18.4s
Total de testes 1 Testes errados 0 Custo total $0.387 Tempo de resposta (médio) 18.4s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	18.3s
Total de testes 1 Testes errados 0 Custo total $1.143 Tempo de resposta (médio) 18.3s
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 17.8s
#73	Grok 4.3 medium	X AI	10.0	7.1	$0.779	1/1	17.7s
Total de testes 1 Testes errados 0 Custo total $0.779 Tempo de resposta (médio) 17.7s
#184	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 17.3s
#17	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	1/1	17.0s
Total de testes 1 Testes errados 0 Custo total $3.478 Tempo de resposta (médio) 17.0s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
Total de testes 1 Testes errados 0 Custo total $0.779 Tempo de resposta (médio) 16.9s
#84	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
Total de testes 1 Testes errados 0 Custo total $0.187 Tempo de resposta (médio) 16.9s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 16.0s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)