Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

245

Modelo más afectado

Step 3.5 Flash 3

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones18 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

140/140

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.078 Tiempo de respuesta (promedio) 68.6s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.340 Tiempo de respuesta (promedio) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
Pruebas totales 16 Pruebas incorrectas 3 Costo total $2.310 Tiempo de respuesta (promedio) 68.1s
#28	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.006 Tiempo de respuesta (promedio) 64.2s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.970 Tiempo de respuesta (promedio) 62.7s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
Pruebas totales 18 Pruebas incorrectas 8 Costo total $2.044 Tiempo de respuesta (promedio) 62.0s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.746 Tiempo de respuesta (promedio) 58.1s
#179	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.026 Tiempo de respuesta (promedio) 55.1s
#128	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.114 Tiempo de respuesta (promedio) 54.9s
#140	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.050	8/22	52.0s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.050 Tiempo de respuesta (promedio) 52.0s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.042 Tiempo de respuesta (promedio) 49.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.234 Tiempo de respuesta (promedio) 48.5s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.779 Tiempo de respuesta (promedio) 47.4s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.738 Tiempo de respuesta (promedio) 44.7s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)