Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

246

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#210	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#211	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Pruebas totales 19 Pruebas incorrectas 14 Costo total $0.004 Tiempo de respuesta (promedio) 806ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 17.1s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Pruebas totales 12 Pruebas incorrectas 6 Costo total $0.020 Tiempo de respuesta (promedio) 39.0s
#216	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
Pruebas totales 16 Pruebas incorrectas 14 Costo total $0.001 Tiempo de respuesta (promedio) 782ms
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $0.920 Tiempo de respuesta (promedio) 17.0s
#19	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.357 Tiempo de respuesta (promedio) 25.0s
#21	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.533 Tiempo de respuesta (promedio) 23.1s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.647 Tiempo de respuesta (promedio) 11.5s
#30	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.694 Tiempo de respuesta (promedio) 31.5s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.234 Tiempo de respuesta (promedio) 48.5s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.041 Tiempo de respuesta (promedio) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.200 Tiempo de respuesta (promedio) 79.1s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.286 Tiempo de respuesta (promedio) 75.0s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.138 Tiempo de respuesta (promedio) 13.2s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)