AI BENCHY
Advertise here

Fallos AI BENCHY

Fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

15

Fallos totales

215

Modelo más afectado

Gemini 3.5 Flash 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#90 Gemini 3.1 Flash Lite none Google 1 6.4 9/21 1.06s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s
#125 GPT-5.4 none OpenAI 1 5.5 7/21 1.42s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#133 DeepSeek V3.2 none DeepSeek 1 5.2 6/21 13.8s
#139 DeepSeek V4 Flash none DeepSeek 1 5.0 5/21 26.8s
#140 Qwen3 Coder Next none Qwen 1 4.9 5/21 8.62s
#142 Mistral Small 4 none Mistral 1 4.9 5/21 630ms
#143 MiMo-V2.5 none Xiaomi 1 4.9 5/21 2.20s
#146 Laguna Xs.2 none Poolside 1 4.8 5/19 806ms

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)