Ranking de Resolución de acertijos x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Resolución de acertijos, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3.1 Flash Lite 2

Motivos de fallo

Respuesta incorrecta201 No siguió las instrucciones90 Error de API12 Formato extra8 Tiempo agotado5 Sin respuesta3

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

86/86

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.096 Tiempo de respuesta (promedio) 2.17s
#168	MiMo-V2.5 none	Xiaomi	1	5.4	$0.025	1/3	2.13s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 2.13s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.021 Tiempo de respuesta (promedio) 621ms
#170	GLM 5 Turbo none	Z.ai	1	5.5	$0.047	1/3	2.65s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 2.65s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 24.9s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.010 Tiempo de respuesta (promedio) 1.21s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 1.20s
#177	Nemotron 3 Super none	NVIDIA	1	5.5	$0.008	1/3	2.36s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 2.36s
#178	Ling-2.6-flash none	Inclusionai	1	2.9	$0.002	0/3	6.51s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.002 Tiempo de respuesta (promedio) 6.51s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.026 Tiempo de respuesta (promedio) 31.5s
#180	GPT-5.4 Nano none	OpenAI	1	5.4	$0.041	1/3	1.25s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.041 Tiempo de respuesta (promedio) 1.25s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.7	$5.599	1/3	5.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $5.599 Tiempo de respuesta (promedio) 5.19s
#183	Trinity Large Preview none	Arcee AI	1	3.6	$0.008	0/3	1.97s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.008 Tiempo de respuesta (promedio) 1.97s
#184	Hunter Alpha medium	OpenRouter	1	6.1	$0.000	1/3	5.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 5.35s
#185	Grok 4.1 Fast medium	X AI	1	5.3	$0.069	1/3	7.40s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.069 Tiempo de respuesta (promedio) 7.40s

←

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Resolución de acertijos: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado