Fallos AI BENCHY
Fallos por No siguió las instrucciones
Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.
| Rango | Modelo | Empresa | Cantidad de No siguió las instrucciones | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #83 | Mistral Small 4 none | Mistral | 2 | 5.2 | 5/18 | 665ms |
| #82 | Grok 4.20 none | X AI | 2 | 5.2 | 5/18 | 1.11s |
| #81 | Elephant medium | Openrouter | 3 | 5.2 | 5/18 | 1.27s |
| #80 | MiniMax M2.7 medium | Minimax | 6 | 5.3 | 4/18 | 31.1s |
| #79 | Grok 4.20 Beta none | X AI | 3 | 5.3 | 4/18 | 1.19s |
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #77 | GLM 5 Turbo none | Z.ai | 2 | 5.5 | 6/18 | 2.94s |
| #74 | GLM 4.7 Flash none | Z.ai | 2 | 5.6 | 5/18 | 3.35s |
| #75 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #73 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |
| #72 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #71 | MiniMax M2.5 medium | Minimax | 3 | 5.7 | 5/18 | 39.6s |
| #70 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.7 | 6/18 | 3.69s |
| #69 | Kimi K2.6 none | Moonshot AI | 3 | 5.8 | 7/18 | 2.05s |
| #68 | gpt-oss-120b medium | OpenAI | 4 | 5.8 | 7/18 | 16.1s |