Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Testes corretos ↓.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Gemini 3.6 Flash 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
Total de testes 1 Testes errados 0 Custo total $0.045 Tempo de resposta (médio) 4.39s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 22.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
Total de testes 1 Testes errados 0 Custo total $0.048 Tempo de resposta (médio) 4.77s
#156	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.042	1/1	77.9s
Total de testes 1 Testes errados 0 Custo total $0.042 Tempo de resposta (médio) 77.9s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
Total de testes 1 Testes errados 0 Custo total $0.164 Tempo de resposta (médio) 10.7s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
Total de testes 1 Testes errados 0 Custo total $0.087 Tempo de resposta (médio) 6.74s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
Total de testes 1 Testes errados 0 Custo total $0.068 Tempo de resposta (médio) 3.30s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
Total de testes 1 Testes errados 0 Custo total $0.127 Tempo de resposta (médio) 14.0s
#162	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
Total de testes 1 Testes errados 0 Custo total $0.015 Tempo de resposta (médio) 57.1s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
Total de testes 1 Testes errados 0 Custo total $0.021 Tempo de resposta (médio) 5.40s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 4.47s
#165	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
Total de testes 1 Testes errados 0 Custo total $0.142 Tempo de resposta (médio) 2.80s
#166	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Total de testes 1 Testes errados 0 Custo total $0.008 Tempo de resposta (médio) 1.36s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
Total de testes 1 Testes errados 0 Custo total $2.310 Tempo de resposta (médio) 7.73s
#171	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Total de testes 1 Testes errados 0 Custo total $0.022 Tempo de resposta (médio) 1.40s

←

1 9 10 11 15

→

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)