Fallos por categoría de AI BENCHY
Llamada de herramientas: Llamada de herramienta no válida
Llamada de herramientas
Llamada de herramienta no válida
Mira qué modelos de IA tienen más probabilidades de caer en Llamada de herramienta no válida dentro de Llamada de herramientas, para detectar puntos débiles más rápido.
Motivos de fallo
Categorías
| Rango | Modelo | Empresa | Cantidad de Llamada de herramienta no válida | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |
| #81 | Elephant medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #85 | Elephant none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |