Ranking de Seguimiento de instrucciones x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Muse Spark 1.1 1

Motivos de fallo

Respuesta incorrecta61 No siguió las instrucciones18 Formato extra3 Sin respuesta2 Error de API1 Tiempo agotado1

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

18/18

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.357 Tiempo de respuesta (promedio) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.647 Tiempo de respuesta (promedio) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.694 Tiempo de respuesta (promedio) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.200 Tiempo de respuesta (promedio) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.524 Tiempo de respuesta (promedio) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.249 Tiempo de respuesta (promedio) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.108 Tiempo de respuesta (promedio) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.349 Tiempo de respuesta (promedio) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.683 Tiempo de respuesta (promedio) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.050 Tiempo de respuesta (promedio) 6.97s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 822ms
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.340 Tiempo de respuesta (promedio) 621ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.007 Tiempo de respuesta (promedio) 344ms

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Seguimiento de instrucciones: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado