AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Fallos AI BENCHY

Fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

15

Fallos totales

215

Modelo más afectado

Mistral Small 4 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#141 Nemotron 3 Super none NVIDIA 2 4.9 5/21 5.30s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#24 GPT-5.2 Chat none OpenAI 1 7.9 14/21 7.13s
#159 Ling-2.6-1T none Inclusionai 2 4.3 3/21 7.72s
#150 Qwen3 Coder Next medium Qwen 3 4.6 4/21 8.58s
#140 Qwen3 Coder Next none Qwen 1 4.9 5/21 8.62s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s
#132 Mistral Small 4 medium Mistral 2 5.3 5/21 9.40s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#13 Grok 4.20 Beta medium X AI 1 8.5 14/18 9.75s
#121 Owl Alpha none Openrouter 3 5.5 7/21 9.88s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)