AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Programación: No siguió las instrucciones

Programación
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

16

Modelo más afectado

Gemini 3.5 Flash 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#6 Gemini 3.5 Flash medium Google 1 6.8 1/2 9.91s
#24 Gemini 3.5 Flash minimal Google 1 7.0 1/2 3.39s
#63 Claude Opus 4.6 medium Anthropic 1 7.2 1/2 29.4s
#74 Laguna M.1 medium Poolside 1 4.3 0/1 35.6s
#80 DeepSeek V4 Pro high DeepSeek 1 2.8 0/2 51.8s
#87 Grok 4.1 Fast medium X AI 1 2.3 0/1 23.6s
#96 Nemotron 3 Super medium NVIDIA 1 3.1 0/2 62.4s
#100 Owl Alpha medium Openrouter 1 6.6 1/2 19.1s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#110 Kimi K2.6 none Moonshot AI 1 6.8 1/2 122.8s
#114 DeepSeek V3.2 none DeepSeek 1 3.1 0/2 20.9s
#115 MiMo-V2.5-Pro none Xiaomi 1 5.0 0/2 1.80s
#149 MiMo-V2-Flash none Xiaomi 1 4.9 0/2 2.04s
#151 Qwen3.5-9B medium Qwen 1 2.8 0/2 135.6s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado