Falhas AI BENCHY
Falhas por Chamada de ferramenta inválida
Veja quais modelos de IA encontram Chamada de ferramenta inválida com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação média ↓.
Categorias relacionadas
| Posição | Modelo | Empresa | Contagem de Chamada de ferramenta inválida | Pontuação média | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |