Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

246

Modelo más afectado

LFM2-24B-A2B 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.128 Tiempo de respuesta (promedio) 9.34s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.457 Tiempo de respuesta (promedio) 23.1s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.391 Tiempo de respuesta (promedio) 100.3s
#94	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.746 Tiempo de respuesta (promedio) 58.1s
#92	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.300 Tiempo de respuesta (promedio) 2.65s
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.738 Tiempo de respuesta (promedio) 44.7s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.187 Tiempo de respuesta (promedio) 33.9s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.524 Tiempo de respuesta (promedio) 2.16s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.096 Tiempo de respuesta (promedio) 11.6s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.467 Tiempo de respuesta (promedio) 24.0s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.101 Tiempo de respuesta (promedio) 92.5s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.093 Tiempo de respuesta (promedio) 2.72s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.600 Tiempo de respuesta (promedio) 99.0s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.078 Tiempo de respuesta (promedio) 68.6s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.777 Tiempo de respuesta (promedio) 29.5s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)