Ranking de Inteligencia general x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.5 1

Motivos de fallo

No siguió las instrucciones78 Respuesta incorrecta59 Error de API12 Tiempo agotado4

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

78/78

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.247 Tiempo de respuesta (promedio) 1.12s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $2.044 Tiempo de respuesta (promedio) 45.7s
#145	GLM 5V Turbo none	Z.ai	1	4.6	$0.052	0/1	2.22s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.052 Tiempo de respuesta (promedio) 2.22s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 58.6s
#147	Mimo V2 PRO none	Xiaomi	1	4.3	$0.045	0/1	2.44s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.045 Tiempo de respuesta (promedio) 2.44s
#148	Owl Alpha none	Openrouter	1	4.3	$0.000	0/1	4.61s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 4.61s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.0	$0.048	0/1	9.81s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.048 Tiempo de respuesta (promedio) 9.81s
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 1.07s
#156	Gemma 4 26B A4B none	Google	1	4.0	$0.015	0/1	3.54s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 3.54s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	5.0	$0.041	0/1	10.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.041 Tiempo de respuesta (promedio) 10.1s
#162	Ling-2.6-1T none	Inclusionai	1	5.0	$0.016	0/1	20.3s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 20.3s
#167	Mistral Small 4 medium	Mistral	1	4.8	$0.096	0/1	2.05s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.096 Tiempo de respuesta (promedio) 2.05s
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 552ms
#170	GLM 5 Turbo none	Z.ai	1	4.2	$0.047	0/1	2.18s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.047 Tiempo de respuesta (promedio) 2.18s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.163 Tiempo de respuesta (promedio) 38.7s

←

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Inteligencia general: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado