Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.7

Melhor modelo

Ring-2.6-1T 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

210/210

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#108	Ring-2.6-1T medium	Inclusionai	10.0	6.3	$0.103	1/1	104.4s
Total de testes 1 Testes errados 0 Custo total $0.103 Tempo de resposta (médio) 104.4s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	1/1	88.7s
Total de testes 1 Testes errados 0 Custo total $0.101 Tempo de resposta (médio) 88.7s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	1/1	78.8s
Total de testes 1 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 78.8s
#150	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.044	1/1	77.9s
Total de testes 1 Testes errados 0 Custo total $0.044 Tempo de resposta (médio) 77.9s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	1/1	74.7s
Total de testes 1 Testes errados 0 Custo total $0.042 Tempo de resposta (médio) 74.7s
#156	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
Total de testes 1 Testes errados 0 Custo total $0.015 Tempo de resposta (médio) 57.1s
#140	Nemotron 3 Super medium	NVIDIA	10.0	5.7	$0.050	1/1	39.7s
Total de testes 1 Testes errados 0 Custo total $0.050 Tempo de resposta (médio) 39.7s
#76	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	1/1	34.8s
Total de testes 1 Testes errados 0 Custo total $0.078 Tempo de resposta (médio) 34.8s
#199	Hy3 preview none	Tencent	10.0	4.0	$0.003	1/1	33.8s
Total de testes 1 Testes errados 0 Custo total $0.003 Tempo de resposta (médio) 33.8s
#128	GPT-5 Nano medium	OpenAI	10.0	6.1	$0.114	1/1	33.3s
Total de testes 1 Testes errados 0 Custo total $0.114 Tempo de resposta (médio) 33.3s
#77	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	1/1	31.7s
Total de testes 1 Testes errados 0 Custo total $0.600 Tempo de resposta (médio) 31.7s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10.0	7.2	$0.482	1/1	28.0s
Total de testes 1 Testes errados 0 Custo total $0.482 Tempo de resposta (médio) 28.0s
#113	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	1/1	27.8s
Total de testes 1 Testes errados 0 Custo total $0.043 Tempo de resposta (médio) 27.8s
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
Total de testes 1 Testes errados 1 Custo total $0.069 Tempo de resposta (médio) 27.7s
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
Total de testes 1 Testes errados 1 Custo total $0.016 Tempo de resposta (médio) 25.7s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)