Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

246

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.571 Tiempo de respuesta (promedio) 6.88s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.036 Tiempo de respuesta (promedio) 110.0s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.779 Tiempo de respuesta (promedio) 47.4s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.777 Tiempo de respuesta (promedio) 29.5s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.600 Tiempo de respuesta (promedio) 99.0s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.096 Tiempo de respuesta (promedio) 11.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.187 Tiempo de respuesta (promedio) 33.9s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.469 Tiempo de respuesta (promedio) 148.7s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.090 Tiempo de respuesta (promedio) 4.76s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.052 Tiempo de respuesta (promedio) 1.58s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.187 Tiempo de respuesta (promedio) 5.15s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.122 Tiempo de respuesta (promedio) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)