AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Resolución de acertijos: No siguió las instrucciones

Resolución de acertijos
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Resolución de acertijos, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

75

Modelo más afectado

GLM 5 Turbo 2
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#45 GPT-5 Mini medium OpenAI 1 5.6 1/3 14.1s
#46 Kimi K2.5 medium Moonshot AI 1 5.3 1/3 45.4s
#48 Gemma 4 31B none Google 1 5.5 1/3 2.95s
#50 Hunter Alpha medium OpenRouter 1 6.1 1/3 5.36s
#52 Grok 4.1 Fast medium X AI 1 5.3 1/3 8.08s
#55 MiMo-V2-Omni none Xiaomi 1 8.0 2/3 2.71s
#57 GPT-5 Nano medium OpenAI 1 5.3 1/3 19.8s
#58 GLM 5V Turbo none Z.ai 1 5.3 1/3 2.22s
#59 Qwen3.5-Flash none Qwen 1 3.3 0/3 5.90s
#60 Gemma 4 26B A4B none Google 1 5.7 1/3 739ms
#62 Gemini 2.5 Flash none Google 1 5.7 1/3 576ms
#63 Qwen3.5-35B-A3B none Qwen 1 3.9 0/3 1.34s
#65 MiMo-V2-Pro none Xiaomi 1 6.0 1/3 1.83s
#66 GPT-5.4 none OpenAI 1 5.6 1/3 1.52s
#67 Qwen3.5-27B none Qwen 1 6.7 1/3 1.37s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado