Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

245

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones18 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

140/140

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#101	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.082 Tiempo de respuesta (promedio) 32.2s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.646 Tiempo de respuesta (promedio) 16.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#112	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.548 Tiempo de respuesta (promedio) 6.04s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#114	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.139 Tiempo de respuesta (promedio) 84.8s
#115	Gemma 4 31B none	Google	1	6.2	$0.035	10/22	5.34s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.035 Tiempo de respuesta (promedio) 5.34s
#117	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.249 Tiempo de respuesta (promedio) 5.04s
#122	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.046 Tiempo de respuesta (promedio) 1.75s
#124	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#129	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.095 Tiempo de respuesta (promedio) 3.87s
#131	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
Pruebas totales 18 Pruebas incorrectas 4 Costo total $0.750 Tiempo de respuesta (promedio) 9.75s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#139	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.397 Tiempo de respuesta (promedio) 2.07s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.048 Tiempo de respuesta (promedio) 8.42s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)