Ranking de fallos por No siguió las instrucciones

Fallos AI BENCHY

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

215

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos78 En la categoría Inteligencia general74 En la categoría Trucos anti-IA30 En la categoría Programación14 En la categoría Seguimiento de instrucciones11 En la categoría Llamada de herramientas6 En la categoría Combinado1 En la categoría Específico del dominio1

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Pruebas correctas	Tiempo de respuesta (promedio)
#7	Gemini 3.5 Flash medium	Google	1	9.0	18/21	4.94s
#12	Gemini 3.1 Flash Lite Preview high	Google	1	8.6	13/16	68.1s
#13	Grok 4.20 Beta medium	X AI	1	8.5	14/18	9.75s
#15	GPT-5.3-Codex medium	OpenAI	2	8.4	15/21	16.2s
#17	GLM 5 medium	Z.ai	1	8.3	15/21	33.5s
#19	Seed-2.0-Lite medium	Bytedance Seed	2	8.2	14/21	47.1s
#21	GPT-5.4 medium	OpenAI	2	8.0	14/21	22.3s
#22	Step 3.7 Flash medium	Stepfun	1	8.0	14/21	20.4s
#23	GLM 5 Turbo medium	Z.ai	1	8.0	14/21	23.0s
#24	GPT-5.2 Chat none	OpenAI	1	7.9	14/21	7.13s
#26	Qwen3.6 Plus medium	Qwen	1	7.9	14/21	30.7s
#28	Gemini 2.5 Flash medium	Google	1	7.8	14/21	15.5s
#32	Gemini 3.5 Flash minimal	Google	1	7.7	14/21	1.57s
#33	Hy3 preview medium	Tencent	1	7.7	14/21	16.3s
#30	Qwen3.5-27B medium	Qwen	2	7.8	13/21	68.4s

Fallos por No siguió las instrucciones

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)