Ranking de Inteligencia general x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.5 1

Motivos de fallo

No siguió las instrucciones78 Respuesta incorrecta59 Error de API12 Tiempo agotado4

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

78/78

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.041 Tiempo de respuesta (promedio) 1.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	5.8	$5.599	0/1	6.40s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $5.599 Tiempo de respuesta (promedio) 6.40s
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 873ms
#184	Hunter Alpha medium	OpenRouter	1	7.0	$0.000	0/1	6.44s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 6.44s
#185	Grok 4.1 Fast medium	X AI	1	4.2	$0.069	0/1	16.2s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 16.2s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	0/1	1.39s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.032 Tiempo de respuesta (promedio) 1.39s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 23.2s
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.030 Tiempo de respuesta (promedio) 628ms
#190	MiniMax M2.5 medium	Minimax	1	3.8	$0.340	0/1	6.63s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.340 Tiempo de respuesta (promedio) 6.63s
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 541ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 854ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 920ms
#196	Hunter Alpha none	OpenRouter	1	6.1	$0.000	0/1	2.71s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 2.71s
#199	Hy3 preview none	Tencent	1	4.1	$0.003	0/1	16.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.003 Tiempo de respuesta (promedio) 16.1s
#200	MiMo-V2-Flash none	Xiaomi	1	4.6	$0.025	0/1	1.67s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.025 Tiempo de respuesta (promedio) 1.67s

←

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Inteligencia general: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado