Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Kimi K3 3.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#108	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
Total de testes 1 Testes errados 0 Custo total $0.068 Tempo de resposta (médio) 3.01s
#138	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
Total de testes 1 Testes errados 0 Custo total $0.349 Tempo de resposta (médio) 3.10s
#71	Step 3.7 Flash low	Stepfun	10.0	7.3	$0.454	1/1	3.25s
Total de testes 1 Testes errados 0 Custo total $0.454 Tempo de resposta (médio) 3.25s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
Total de testes 1 Testes errados 0 Custo total $0.433 Tempo de resposta (médio) 3.27s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
Total de testes 1 Testes errados 0 Custo total $0.068 Tempo de resposta (médio) 3.30s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	1/1	3.33s
Total de testes 1 Testes errados 0 Custo total $0.073 Tempo de resposta (médio) 3.33s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
Total de testes 1 Testes errados 0 Custo total $0.085 Tempo de resposta (médio) 3.35s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	1/1	3.39s
Total de testes 1 Testes errados 0 Custo total $0.052 Tempo de resposta (médio) 3.39s
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
Total de testes 1 Testes errados 1 Custo total $0.015 Tempo de resposta (médio) 3.39s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
Total de testes 1 Testes errados 0 Custo total $0.041 Tempo de resposta (médio) 3.40s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
Total de testes 1 Testes errados 0 Custo total $0.096 Tempo de resposta (médio) 3.50s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	1/1	3.51s
Total de testes 1 Testes errados 0 Custo total $0.047 Tempo de resposta (médio) 3.51s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	1/1	3.54s
Total de testes 1 Testes errados 0 Custo total $0.106 Tempo de resposta (médio) 3.54s
#109	Qwen3.5-27B none	Qwen	10.0	6.5	$0.090	1/1	3.54s
Total de testes 1 Testes errados 0 Custo total $0.090 Tempo de resposta (médio) 3.54s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
Total de testes 1 Testes errados 0 Custo total $0.000 Tempo de resposta (médio) 3.64s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)