Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Kimi K2.5 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.108 Tiempo de respuesta (promedio) 4.78s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 4.63s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.033 Tiempo de respuesta (promedio) 4.30s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.043 Tiempo de respuesta (promedio) 4.28s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.777 Tiempo de respuesta (promedio) 4.26s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.817 Tiempo de respuesta (promedio) 4.26s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 4.26s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.000 Tiempo de respuesta (promedio) 4.18s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.096 Tiempo de respuesta (promedio) 4.12s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.742 Tiempo de respuesta (promedio) 4.04s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.785 Tiempo de respuesta (promedio) 3.94s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.128 Tiempo de respuesta (promedio) 3.84s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.253 Tiempo de respuesta (promedio) 3.74s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.457 Tiempo de respuesta (promedio) 3.74s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $5.599 Tiempo de respuesta (promedio) 3.52s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)