Ranking de fallos por No siguió las instrucciones

Mira qué modelos de IA se encuentran con No siguió las instrucciones con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

246

Modelo más afectado

LFM2-24B-A2B 1

Categorías

En la categoría Resolución de acertijos90 En la categoría Inteligencia general78 En la categoría Trucos anti-IA33 En la categoría Seguimiento de instrucciones19 En la categoría Programación16 En la categoría Llamada de herramientas8 En la categoría Combinado1 En la categoría Específico del dominio1

141/141

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.779 Tiempo de respuesta (promedio) 47.4s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.106 Tiempo de respuesta (promedio) 12.1s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.036 Tiempo de respuesta (promedio) 110.0s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.166 Tiempo de respuesta (promedio) 4.91s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.117 Tiempo de respuesta (promedio) 4.27s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.115 Tiempo de respuesta (promedio) 4.61s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.661 Tiempo de respuesta (promedio) 8.12s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.756 Tiempo de respuesta (promedio) 25.9s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.571 Tiempo de respuesta (promedio) 6.88s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.138 Tiempo de respuesta (promedio) 13.2s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.740 Tiempo de respuesta (promedio) 84.2s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Pruebas totales 21 Pruebas incorrectas 7 Costo total $0.323 Tiempo de respuesta (promedio) 23.0s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.286 Tiempo de respuesta (promedio) 75.0s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.200 Tiempo de respuesta (promedio) 79.1s

Fallos por No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)