Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	6.1	$0.122	1/1	4.42s
Total de testes 1 Testes errados 0 Custo total $0.122 Tempo de resposta (médio) 4.42s
#123	GPT-5.6 Luna low	OpenAI	10.0	6.2	$0.249	1/1	4.43s
Total de testes 1 Testes errados 0 Custo total $0.249 Tempo de resposta (médio) 4.43s
#144	Kimi K2.6 none	Moonshot AI	10.0	5.8	$0.184	1/1	4.46s
Total de testes 1 Testes errados 0 Custo total $0.184 Tempo de resposta (médio) 4.46s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 4.47s
#36	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
Total de testes 1 Testes errados 1 Custo total $0.391 Tempo de resposta (médio) 4.48s
#69	Gemini 3.1 Flash Lite medium	Google	10.0	7.3	$0.117	1/1	4.55s
Total de testes 1 Testes errados 0 Custo total $0.117 Tempo de resposta (médio) 4.55s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	1/1	4.60s
Total de testes 1 Testes errados 0 Custo total $1.046 Tempo de resposta (médio) 4.60s
#203	Grok 4.20 none	X AI	10.0	4.1	$0.057	1/1	4.63s
Total de testes 1 Testes errados 0 Custo total $0.057 Tempo de resposta (médio) 4.63s
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	1/1	4.65s
Total de testes 1 Testes errados 0 Custo total $0.837 Tempo de resposta (médio) 4.65s
#34	GPT-5.2 Chat none	OpenAI	10.0	8.0	$0.604	1/1	4.68s
Total de testes 1 Testes errados 0 Custo total $0.604 Tempo de resposta (médio) 4.68s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
Total de testes 1 Testes errados 0 Custo total $0.505 Tempo de resposta (médio) 4.74s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
Total de testes 1 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 4.77s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
Total de testes 1 Testes errados 0 Custo total $0.077 Tempo de resposta (médio) 4.77s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
Total de testes 1 Testes errados 0 Custo total $0.517 Tempo de resposta (médio) 4.78s
#197	Grok 4.20 Beta none	X AI	10.0	4.4	$0.087	1/1	4.79s
Total de testes 1 Testes errados 0 Custo total $0.087 Tempo de resposta (médio) 4.79s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)