Fallos AI BENCHY
Fallos por Llamada de herramienta no válida
Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.
| Rango | Modelo | Empresa | Cantidad de Llamada de herramienta no válida | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.1 | 7/18 | 12.1s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 5.7 | 5/18 | 39.6s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 5.6 | 5/18 | 3.35s |
| #75 | GLM 5.1 none | Z.ai | 1 | 5.6 | 5/18 | 4.33s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 5.3 | 4/18 | 1.19s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 4/18 | 31.1s |
| #81 | Elephant medium | Openrouter | 1 | 5.2 | 5/18 | 1.27s |
| #82 | Grok 4.20 none | X AI | 1 | 5.2 | 5/18 | 1.11s |
| #85 | Elephant none | Openrouter | 1 | 5.2 | 5/18 | 1.23s |
| #90 | Qwen3.5-9B none | Qwen | 1 | 4.8 | 4/18 | 1.47s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 4.6 | 4/18 | 32.3s |
| #31 | GLM 5V Turbo medium | Z.ai | 2 | 7.8 | 11/18 | 15.0s |