Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

246

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 5.97s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.002 Tiempo de respuesta (promedio) 10.7s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.026 Tiempo de respuesta (promedio) 55.1s
#186	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.041 Tiempo de respuesta (promedio) 2.57s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $5.599 Tiempo de respuesta (promedio) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 10.3s
#200	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.166 Tiempo de respuesta (promedio) 142.6s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 1.27s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.000 Tiempo de respuesta (promedio) 4.70s
#206	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 2.76s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
Pruebas totales 19 Pruebas incorrectas 12 Costo total $0.547 Tiempo de respuesta (promedio) 28.7s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.010 Tiempo de respuesta (promedio) 21.6s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
Pruebas totales 19 Pruebas incorrectas 17 Costo total $0.000 Tiempo de respuesta (promedio) 728ms
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.951 Tiempo de respuesta (promedio) 22.6s
#29	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.237 Tiempo de respuesta (promedio) 27.6s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)