Falhas por categoria AI BENCHY
Combinado
Chamada de ferramenta inválida
Combinado
Chamada de ferramenta inválida
Veja quais modelos de IA têm mais chance de encontrar Chamada de ferramenta inválida em Combinado, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.
Motivos de falha relacionados
Categorias relacionadas
| Posição | Modelo | Empresa | Contagem de Chamada de ferramenta inválida | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |