AI BENCHY
Your ad here

Fallos AI BENCHY

Fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

15

Fallos totales

180

Modelo más afectado

LFM2-24B-A2B 2
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#47 Grok 4.20 medium X AI 4 7.0 9/18 10.3s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#44 GPT-5.4 Mini medium OpenAI 5 7.3 9/18 15.2s
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#36 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#35 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)