Fallos AI BENCHY
Fallos por No siguió las instrucciones
Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.
| Rango | Modelo | Empresa | Cantidad de No siguió las instrucciones | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #75 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #72 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.4 | 11/18 | 4.98s |
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #73 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |
| #36 | GPT-5.3 Chat none | OpenAI | 2 | 7.7 | 11/18 | 5.88s |
| #60 | Gemma 4 26B A4B none | 3 | 6.2 | 7/18 | 6.59s | |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 12/18 | 6.84s |
| #88 | Nemotron 3 Super none | NVIDIA | 4 | 5.1 | 4/18 | 8.54s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.4 | 7/18 | 9.80s |
| #25 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | 4/18 | 10.2s |
| #47 | Grok 4.20 medium | X AI | 4 | 7.0 | 9/18 | 10.3s |
| #50 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #92 | Qwen3 Coder Next medium | Qwen | 5 | 4.7 | 3/18 | 10.8s |