Ranking de Seguimiento de instrucciones x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

LongCat 2.0 1

Motivos de fallo

Respuesta incorrecta61 No siguió las instrucciones18 Formato extra3 Sin respuesta2 Error de API1 Tiempo agotado1

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

61/61

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.2	$0.122	1/2	1.17s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.122 Tiempo de respuesta (promedio) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.3	$0.106	1/2	809ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 809ms
#136	GPT-5.4 Mini none	OpenAI	1	6.3	$0.095	1/2	728ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.095 Tiempo de respuesta (promedio) 728ms
#138	Kimi K2.6 none	Moonshot AI	1	6.5	$0.184	1/2	1.64s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.184 Tiempo de respuesta (promedio) 1.64s
#139	GPT-5.4 none	OpenAI	1	6.5	$0.397	1/2	1.07s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.397 Tiempo de respuesta (promedio) 1.07s
#142	Qwen3.5-122B-A10B none	Qwen	1	6.3	$0.247	1/2	513ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.247 Tiempo de respuesta (promedio) 513ms
#145	GLM 5V Turbo none	Z.ai	1	6.5	$0.052	1/2	1.97s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.052 Tiempo de respuesta (promedio) 1.97s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 10.2s
#147	Mimo V2 PRO none	Xiaomi	1	6.5	$0.045	1/2	2.51s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.045 Tiempo de respuesta (promedio) 2.51s
#148	Owl Alpha none	Openrouter	1	6.4	$0.000	1/2	2.63s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 2.63s
#152	Qwen3.6 27B none	Qwen	1	6.2	$0.087	1/2	1.92s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 1.92s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.4	$0.068	1/2	1.03s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.068 Tiempo de respuesta (promedio) 1.03s
#155	Kimi K2.5 none	Moonshot AI	1	6.5	$0.127	1/2	2.67s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.127 Tiempo de respuesta (promedio) 2.67s
#156	Gemma 4 26B A4B none	Google	1	6.3	$0.015	1/2	690ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 690ms
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 4.26s

←

1 2 3 4 5

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Seguimiento de instrucciones: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado