Ranking de Programación x No siguió las instrucciones

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3.5 Flash 1

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Resolución de acertijos82 Inteligencia general74 Trucos anti-IA31 Programación16 Seguimiento de instrucciones15 Llamada de herramientas6 Combinado1 Específico del dominio1

16/16

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.582 Tiempo de respuesta (promedio) 12.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $2.053 Tiempo de respuesta (promedio) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.539 Tiempo de respuesta (promedio) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.034 Tiempo de respuesta (promedio) 13.4s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.030 Tiempo de respuesta (promedio) 7.55s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.108 Tiempo de respuesta (promedio) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.078 Tiempo de respuesta (promedio) 82.6s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.017 Tiempo de respuesta (promedio) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.032 Tiempo de respuesta (promedio) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.017 Tiempo de respuesta (promedio) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.033 Tiempo de respuesta (promedio) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.025 Tiempo de respuesta (promedio) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 775ms

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado