Fallos por categoría de AI BENCHY

Trucos anti-IA

No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Trucos anti-IA, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3.1 Flash Lite Preview 1

Motivos de fallo relacionados

Respuesta incorrecta53 No siguió las instrucciones12 Formato extra8 Sin respuesta1 Tiempo agotado1

Categorías relacionadas

Inteligencia general32 Resolución de acertijos24 Trucos anti-IA12 Seguimiento de instrucciones9

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Pruebas correctas	Tiempo de respuesta (promedio)
#12	Gemini 3.1 Flash Lite Preview medium	Google	1	9.0	2/3	2.53s
#19	GPT-5.3 Chat none	OpenAI	1	7.3	2/3	4.72s
#22	Gemini 3.1 Flash Lite Preview none	Google	1	6.0	1/3	1.16s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	14.3s
#32	GPT-5 Mini medium	OpenAI	1	7.0	2/3	16.5s
#36	Mercury 2 medium	Inception	1	7.3	2/3	1.30s
#39	gpt-oss-120b medium	OpenAI	1	7.0	2/3	19.8s
#43	MiniMax M2.5 medium	Minimax	1	9.3	2/3	32.4s
#48	Qwen3 Coder Next none	Qwen	1	2.3	0/3	4.39s
#50	Qwen3 Coder Next medium	Qwen	1	1.3	0/3	15.3s
#52	GLM 4.7 Flash medium	Z.ai	1	4.0	1/3	27.1s
#53	Grok 4.1 Fast none	X AI	1	1.3	0/3	1.73s

Trucos anti-IA

No siguió las instrucciones

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs puntuación promedio

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado