Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Granite 4.1 8B 3.6

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.817 Tiempo de respuesta (promedio) 4.26s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.777 Tiempo de respuesta (promedio) 4.26s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.043 Tiempo de respuesta (promedio) 4.28s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.033 Tiempo de respuesta (promedio) 4.30s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 4.63s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.108 Tiempo de respuesta (promedio) 4.78s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.750 Tiempo de respuesta (promedio) 4.89s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.683 Tiempo de respuesta (promedio) 4.99s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.010 Tiempo de respuesta (promedio) 5.06s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 5.36s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.323 Tiempo de respuesta (promedio) 5.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.740 Tiempo de respuesta (promedio) 5.39s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.647 Tiempo de respuesta (promedio) 5.42s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.604 Tiempo de respuesta (promedio) 5.51s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.002 Tiempo de respuesta (promedio) 5.52s

←

1 9 10 11 15

→

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)