Fallos por categoría de AI BENCHY

Resolución de acertijos

No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Resolución de acertijos, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Mercury 2 2

Motivos de fallo relacionados

Respuesta incorrecta55 No siguió las instrucciones24 Tiempo agotado4 Error de API1 Formato extra1

Categorías relacionadas

Inteligencia general32 Resolución de acertijos24 Trucos anti-IA12 Seguimiento de instrucciones9

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Pruebas correctas	Tiempo de respuesta (promedio)
#36	Mercury 2 medium	Inception	2	1.7	0/3	934ms
#39	gpt-oss-120b medium	OpenAI	2	1.7	0/3	11.8s
#49	GLM 4.7 Flash none	Z.ai	2	3.7	0/3	1.00s
#50	Qwen3 Coder Next medium	Qwen	2	10.0	0/3	2.30s
#3	GPT-5.3-Codex medium	OpenAI	1	9.3	2/3	5.12s
#7	Qwen3.5-27B medium	Qwen	1	8.3	2/3	64.6s
#9	GPT-5.4 medium	OpenAI	1	7.0	2/3	9.13s
#13	Step 3.5 Flash medium	Stepfun	1	4.0	1/3	7.72s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	5.47s
#28	Kimi K2.5 medium	Moonshot AI	1	4.0	1/3	45.4s
#30	Grok 4.1 Fast medium	X AI	1	4.0	1/3	8.08s
#32	GPT-5 Mini medium	OpenAI	1	4.3	1/3	14.1s
#34	GPT-5 Nano medium	OpenAI	1	4.0	1/3	19.8s
#37	Qwen3.5-Flash none	Qwen	1	1.3	0/3	5.90s
#38	Gemini 2.5 Flash none	Google	1	4.7	1/3	576ms
#41	Qwen3.5-27B none	Qwen	1	6.3	1/3	1.37s
#42	Qwen3.5-35B-A3B none	Qwen	1	1.7	0/3	1.34s
#44	GPT-5.4 none	OpenAI	1	4.0	1/3	1.52s
#52	GLM 4.7 Flash medium	Z.ai	1	10.0	0/3	12.9s
#55	LFM2-24B-A2B none	Liquid	1	3.3	0/3	1.69s

Resolución de acertijos

No siguió las instrucciones

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs puntuación promedio

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado