Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

246

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.048 Tiempo de respuesta (promedio) 8.42s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.042 Tiempo de respuesta (promedio) 36.8s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.021 Tiempo de respuesta (promedio) 2.44s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 1.55s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
Pruebas totales 16 Pruebas incorrectas 3 Costo total $2.310 Tiempo de respuesta (promedio) 68.1s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.022 Tiempo de respuesta (promedio) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 9.12s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 4.62s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.054 Tiempo de respuesta (promedio) 18.3s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.010 Tiempo de respuesta (promedio) 1.99s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.016 Tiempo de respuesta (promedio) 9.15s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.033 Tiempo de respuesta (promedio) 14.7s
#195	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.030 Tiempo de respuesta (promedio) 829ms
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)