Fallos AI BENCHY
Fallos por Llamada de herramienta no válida
Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntaje prom. ↑.
Categorías relacionadas
| Rango | Modelo | Empresa | Cantidad de Llamada de herramienta no válida | Puntaje prom. | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |