Ranking de Resolución de acertijos x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Resolución de acertijos, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3.1 Flash Lite 2

Motivos de fallo

Respuesta incorrecta201 No siguió las instrucciones90 Error de API12 Formato extra8 Tiempo agotado5 Sin respuesta3

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

86/86

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#103	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.090 Tiempo de respuesta (promedio) 1.38s
#108	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.103 Tiempo de respuesta (promedio) 20.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.333 Tiempo de respuesta (promedio) 5.08s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/3	4.23s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.035 Tiempo de respuesta (promedio) 4.23s
#121	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.019 Tiempo de respuesta (promedio) 21.7s
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 720ms
#123	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 2.97s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.062 Tiempo de respuesta (promedio) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.106 Tiempo de respuesta (promedio) 1.35s
#128	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.114 Tiempo de respuesta (promedio) 20.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 1.06s
#130	Step 3.5 Flash medium	Stepfun	1	5.3	$0.108	1/3	7.22s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.108 Tiempo de respuesta (promedio) 7.22s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	1/3	2.38s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.683 Tiempo de respuesta (promedio) 2.38s
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 836ms
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.184 Tiempo de respuesta (promedio) 1.40s

←

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Resolución de acertijos: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado