Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Gemini 3 Flash Preview 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.935 Tiempo de respuesta (promedio) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.928 Tiempo de respuesta (promedio) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.643 Tiempo de respuesta (promedio) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.515 Tiempo de respuesta (promedio) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.604 Tiempo de respuesta (promedio) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.774 Tiempo de respuesta (promedio) 6.35s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.571 Tiempo de respuesta (promedio) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.756 Tiempo de respuesta (promedio) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.454 Tiempo de respuesta (promedio) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.777 Tiempo de respuesta (promedio) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.207 Tiempo de respuesta (promedio) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.145 Tiempo de respuesta (promedio) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.128 Tiempo de respuesta (promedio) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.231 Tiempo de respuesta (promedio) 1.40s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)