Fallos AI BENCHY
Fallos por No siguió las instrucciones
Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.
| Rango | Modelo | Empresa | Cantidad de No siguió las instrucciones | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #73 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.4 | 11/18 | 4.98s |
| #72 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #75 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #48 | Gemma 4 31B none | 1 | 6.9 | 10/18 | 4.02s | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 2 | 6.1 | 7/18 | 3.82s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 1 | 8.2 | 13/18 | 3.74s | |
| #70 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.7 | 6/18 | 3.69s |
| #74 | GLM 4.7 Flash none | Z.ai | 2 | 5.6 | 5/18 | 3.35s |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 6.2 | 8/18 | 3.25s |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 8.1 | 13/18 | 3.22s | |
| #58 | GLM 5V Turbo none | Z.ai | 2 | 6.2 | 8/18 | 3.10s |
| #77 | GLM 5 Turbo none | Z.ai | 2 | 5.5 | 6/18 | 2.94s |
| #94 | MiMo-V2-Flash none | Xiaomi | 1 | 4.5 | 3/18 | 2.79s |