Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

245

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones18 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

140/140

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.646 Tiempo de respuesta (promedio) 16.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
Pruebas totales 18 Pruebas incorrectas 8 Costo total $2.044 Tiempo de respuesta (promedio) 62.0s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.237 Tiempo de respuesta (promedio) 27.6s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.694 Tiempo de respuesta (promedio) 31.5s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.286 Tiempo de respuesta (promedio) 75.0s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.751	12/22	84.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.751 Tiempo de respuesta (promedio) 84.2s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.138 Tiempo de respuesta (promedio) 13.2s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.756 Tiempo de respuesta (promedio) 25.9s
#63	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.661 Tiempo de respuesta (promedio) 8.12s
#68	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.036 Tiempo de respuesta (promedio) 110.0s
#75	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.777 Tiempo de respuesta (promedio) 29.5s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.187 Tiempo de respuesta (promedio) 33.9s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.738 Tiempo de respuesta (promedio) 44.7s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)