AI BENCHY
Your ad here

Fallos AI BENCHY

Fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

15

Fallos totales

180

Modelo más afectado

LFM2-24B-A2B 2
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#47 Grok 4.20 medium X AI 4 7.0 9/18 10.3s
#51 Nemotron 3 Super medium NVIDIA 4 6.7 9/18 19.1s
#52 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#35 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#36 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)