Fallos por categoría de AI BENCHY
Llamada de herramientas
Respuesta incorrecta
Llamada de herramientas
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Llamada de herramientas, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↓.
Motivos de fallo relacionados
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 7.05s |
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 5.51s |