Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

245

Modelo más afectado

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones18 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

140/140

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
Pruebas totales 19 Pruebas incorrectas 17 Costo total $0.000 Tiempo de respuesta (promedio) 728ms
#210	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
Pruebas totales 16 Pruebas incorrectas 14 Costo total $0.001 Tiempo de respuesta (promedio) 782ms
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Pruebas totales 19 Pruebas incorrectas 14 Costo total $0.004 Tiempo de respuesta (promedio) 806ms
#189	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.030 Tiempo de respuesta (promedio) 829ms
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#165	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.022 Tiempo de respuesta (promedio) 1.20s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
Pruebas totales 21 Pruebas incorrectas 16 Costo total $0.000 Tiempo de respuesta (promedio) 1.22s
#195	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 1.27s
#201	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#136	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.095 Tiempo de respuesta (promedio) 1.53s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 1.55s
#106	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.052 Tiempo de respuesta (promedio) 1.58s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
Pruebas totales 19 Pruebas incorrectas 16 Costo total $0.008 Tiempo de respuesta (promedio) 1.62s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#122	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.046 Tiempo de respuesta (promedio) 1.75s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)