Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↓.

Modelos mostrados

Fallos totales

246

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.548 Tiempo de respuesta (promedio) 6.04s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.139 Tiempo de respuesta (promedio) 84.8s
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.021 Tiempo de respuesta (promedio) 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.249 Tiempo de respuesta (promedio) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.047 Tiempo de respuesta (promedio) 1.86s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.019 Tiempo de respuesta (promedio) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.046 Tiempo de respuesta (promedio) 1.75s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.187 Tiempo de respuesta (promedio) 5.15s
#130	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.122 Tiempo de respuesta (promedio) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.114 Tiempo de respuesta (promedio) 54.9s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.095 Tiempo de respuesta (promedio) 3.87s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.108 Tiempo de respuesta (promedio) 174.2s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)