Ranking de modelos de Chamada de ferramentas

Veja quais modelos de IA vão melhor em Chamada de ferramentas, quais permanecem confiáveis e onde aparecem as maiores diferenças. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Média de Pontuação de Chamada de ferramentas

8.8

Melhor modelo

Ring-2.6-1T 10.0

Motivos de falha

Com motivo de falha Erro de API17 Com motivo de falha Chamada de ferramenta inválida9 Com motivo de falha Não seguiu as instruções8 Com motivo de falha Resposta incorreta3 Com motivo de falha Sem resposta2

216/216

Posição	Modelo	Empresa	Pontuação de Chamada de ferramentas	Pontuação	Custo total	Testes corretos	Tempo de resposta (médio)
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
Total de testes 1 Testes errados 0 Custo total $0.019 Tempo de resposta (médio) 6.91s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	1/1	6.85s
Total de testes 1 Testes errados 0 Custo total $2.077 Tempo de resposta (médio) 6.85s
#118	Claude Sonnet 5 none	Anthropic	10.0	6.3	$0.548	1/1	6.80s
Total de testes 1 Testes errados 0 Custo total $0.548 Tempo de resposta (médio) 6.80s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
Total de testes 1 Testes errados 0 Custo total $0.087 Tempo de resposta (médio) 6.74s
#59	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
Total de testes 1 Testes errados 1 Custo total $0.519 Tempo de resposta (médio) 6.69s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
Total de testes 1 Testes errados 0 Custo total $0.008 Tempo de resposta (médio) 6.67s
#117	LongCat 2.0 none	Meituan	10.0	6.3	$0.044	1/1	6.64s
Total de testes 1 Testes errados 0 Custo total $0.044 Tempo de resposta (médio) 6.64s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
Total de testes 1 Testes errados 0 Custo total $1.116 Tempo de resposta (médio) 6.63s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	1/1	6.57s
Total de testes 1 Testes errados 0 Custo total $1.928 Tempo de resposta (médio) 6.57s
#32	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
Total de testes 1 Testes errados 1 Custo total $1.006 Tempo de resposta (médio) 6.52s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
Total de testes 1 Testes errados 0 Custo total $2.044 Tempo de resposta (médio) 6.44s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
Total de testes 1 Testes errados 0 Custo total $0.920 Tempo de resposta (médio) 6.37s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
Total de testes 1 Testes errados 0 Custo total $0.033 Tempo de resposta (médio) 6.31s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
Total de testes 1 Testes errados 0 Custo total $1.316 Tempo de resposta (médio) 6.30s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	1/1	6.20s
Total de testes 1 Testes errados 0 Custo total $0.643 Tempo de resposta (médio) 6.20s

Ranking de Chamada de ferramentas

Filtrar modelos

Melhores modelos por Pontuação de Chamada de ferramentas

Pontuação de Chamada de ferramentas vs custo total

Melhores modelos por Tempo de resposta (médio)