Falhas por categoria AI BENCHY
Chamada de ferramentas
Resposta incorreta
Chamada de ferramentas
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Chamada de ferramentas, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.
Motivos de falha relacionados
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 7.05s |
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 5.51s |