Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Grok 4.1 Fast 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.571 Tiempo de respuesta (promedio) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.756 Tiempo de respuesta (promedio) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.454 Tiempo de respuesta (promedio) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.777 Tiempo de respuesta (promedio) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.207 Tiempo de respuesta (promedio) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.145 Tiempo de respuesta (promedio) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.128 Tiempo de respuesta (promedio) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.231 Tiempo de respuesta (promedio) 1.40s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.369 Tiempo de respuesta (promedio) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.068 Tiempo de respuesta (promedio) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.103 Tiempo de respuesta (promedio) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.187 Tiempo de respuesta (promedio) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.114 Tiempo de respuesta (promedio) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.750 Tiempo de respuesta (promedio) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.385 Tiempo de respuesta (promedio) 3.26s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)