Ranking de Inteligencia general x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

LFM2-24B-A2B 1

Motivos de fallo

No siguió las instrucciones78 Respuesta incorrecta59 Error de API12 Tiempo agotado4

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

78/78

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#210	LFM2-24B-A2B none	Liquid	1	4.0	$0.001	0/1	395ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.001 Tiempo de respuesta (promedio) 395ms
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 541ms
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 552ms
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.030 Tiempo de respuesta (promedio) 628ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.052 Tiempo de respuesta (promedio) 741ms
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.047 Tiempo de respuesta (promedio) 791ms
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.093 Tiempo de respuesta (promedio) 821ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 854ms
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 873ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 920ms
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 1.07s
#203	Grok 4.1 Fast none	X AI	1	4.4	$0.008	0/1	1.08s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 1.08s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.247 Tiempo de respuesta (promedio) 1.12s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 1.19s
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.041 Tiempo de respuesta (promedio) 1.31s

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Inteligencia general: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado