Fallos por categoría de AI BENCHY
Combinado
Llamada de herramienta no válida
Combinado
Llamada de herramienta no válida
Mira qué modelos de IA tienen más probabilidades de caer en Llamada de herramienta no válida dentro de Combinado, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↑.
Motivos de fallo relacionados
Categorías relacionadas
| Rango | Modelo | Empresa | Cantidad de Llamada de herramienta no válida | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |