Ranking de Inteligencia general x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.5 1

Motivos de fallo

No siguió las instrucciones78 Respuesta incorrecta59 Error de API12 Tiempo agotado4

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

78/78

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.756 Tiempo de respuesta (promedio) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.627 Tiempo de respuesta (promedio) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.661 Tiempo de respuesta (promedio) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.779 Tiempo de respuesta (promedio) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.777 Tiempo de respuesta (promedio) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.600 Tiempo de respuesta (promedio) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.093 Tiempo de respuesta (promedio) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.101 Tiempo de respuesta (promedio) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.467 Tiempo de respuesta (promedio) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.187 Tiempo de respuesta (promedio) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.746 Tiempo de respuesta (promedio) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.779 Tiempo de respuesta (promedio) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.082 Tiempo de respuesta (promedio) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.090 Tiempo de respuesta (promedio) 2.51s

←

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Inteligencia general: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado