Ranking de Inteligencia general x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.5 1

Motivos de fallo

No siguió las instrucciones78 Respuesta incorrecta59 Error de API12 Tiempo agotado4

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

78/78

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	4.0	$0.646	0/1	1.54s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.646 Tiempo de respuesta (promedio) 1.54s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.052 Tiempo de respuesta (promedio) 741ms
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.103 Tiempo de respuesta (promedio) 58.3s
#112	Claude Sonnet 5 none	Anthropic	1	4.7	$0.548	0/1	2.81s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.548 Tiempo de respuesta (promedio) 2.81s
#113	MiMo-V2-Flash medium	Xiaomi	1	4.0	$0.043	0/1	4.20s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.043 Tiempo de respuesta (promedio) 4.20s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.139 Tiempo de respuesta (promedio) 40.1s
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.047 Tiempo de respuesta (promedio) 791ms
#121	gpt-oss-120b medium	OpenAI	1	4.3	$0.019	0/1	7.90s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.019 Tiempo de respuesta (promedio) 7.90s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.8	$0.122	0/1	1.41s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.122 Tiempo de respuesta (promedio) 1.41s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 1.19s
#128	GPT-5 Nano medium	OpenAI	1	4.1	$0.114	0/1	17.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.114 Tiempo de respuesta (promedio) 17.5s
#130	Step 3.5 Flash medium	Stepfun	1	5.5	$0.108	0/1	22.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.108 Tiempo de respuesta (promedio) 22.4s
#136	GPT-5.4 Mini none	OpenAI	1	4.8	$0.095	0/1	1.82s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.095 Tiempo de respuesta (promedio) 1.82s
#138	Kimi K2.6 none	Moonshot AI	1	5.4	$0.184	0/1	1.55s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.184 Tiempo de respuesta (promedio) 1.55s
#140	Nemotron 3 Super medium	NVIDIA	1	4.1	$0.050	0/1	6.91s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.050 Tiempo de respuesta (promedio) 6.91s

←

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Inteligencia general: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado