Falhas por categoria AI BENCHY
Chamada de ferramentas: Chamada de ferramenta inválida
Chamada de ferramentas
Chamada de ferramenta inválida
Veja quais modelos de IA têm mais chance de encontrar Chamada de ferramenta inválida em Chamada de ferramentas, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.
Motivos de falha
Categorias
| Posição | Modelo | Empresa | Contagem de Chamada de ferramenta inválida | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #85 | Elephant none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |
| #81 | Elephant medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |