Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

Fallos totales

242

Modelo más afectado

MiniMax M2.7 5

Categorías

En la categoría Resolución de acertijos88 En la categoría Inteligencia general78 En la categoría Trucos anti-IA32 En la categoría Seguimiento de instrucciones18 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

138/138

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#168	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.163 Tiempo de respuesta (promedio) 41.3s
#150	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.068 Tiempo de respuesta (promedio) 4.12s
#181	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.069 Tiempo de respuesta (promedio) 23.8s
#195	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.003 Tiempo de respuesta (promedio) 12.9s
#197	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.951 Tiempo de respuesta (promedio) 22.6s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.237 Tiempo de respuesta (promedio) 27.6s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.756 Tiempo de respuesta (promedio) 25.9s
#77	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.093 Tiempo de respuesta (promedio) 2.72s
#116	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.047 Tiempo de respuesta (promedio) 1.86s
#117	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.019 Tiempo de respuesta (promedio) 21.9s
#126	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.108 Tiempo de respuesta (promedio) 174.2s
#132	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.095 Tiempo de respuesta (promedio) 1.53s
#134	Kimi K2.6 none	Moonshot AI	3	5.8	$0.233	7/22	19.6s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.233 Tiempo de respuesta (promedio) 19.6s
#136	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.066	8/22	52.0s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.066 Tiempo de respuesta (promedio) 52.0s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)