AI BENCHY
Advertise here

Fallos AI BENCHY

Fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

15

Fallos totales

215

Modelo más afectado

Granite 4.1 8B 4
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#90 Gemini 3.1 Flash Lite none Google 1 6.4 9/21 1.06s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#87 Gemini 3.1 Flash Lite minimal Google 3 6.4 10/21 1.33s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#81 Mercury 2 medium Inception 3 6.6 10/21 2.24s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)