Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

246

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.015 Tiempo de respuesta (promedio) 7.64s
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.045 Tiempo de respuesta (promedio) 2.27s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 9.88s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 39.9s
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.000 Tiempo de respuesta (promedio) 4.70s
#130	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.184 Tiempo de respuesta (promedio) 19.6s
#145	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.397 Tiempo de respuesta (promedio) 2.07s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.087 Tiempo de respuesta (promedio) 10.7s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.041 Tiempo de respuesta (promedio) 10.1s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.010 Tiempo de respuesta (promedio) 21.6s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.047 Tiempo de respuesta (promedio) 2.82s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 1.27s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)