Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Grok 4.1 Fast 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.200 Tiempo de respuesta (promedio) 8.73s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.108 Tiempo de respuesta (promedio) 4.78s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.683 Tiempo de respuesta (promedio) 4.99s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.584 Tiempo de respuesta (promedio) 1.87s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.249 Tiempo de respuesta (promedio) 2.04s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.524 Tiempo de respuesta (promedio) 1.33s
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.349 Tiempo de respuesta (promedio) 1.15s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.707 Tiempo de respuesta (promedio) 6.23s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.935 Tiempo de respuesta (promedio) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.928 Tiempo de respuesta (promedio) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.643 Tiempo de respuesta (promedio) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.515 Tiempo de respuesta (promedio) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.604 Tiempo de respuesta (promedio) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.774 Tiempo de respuesta (promedio) 6.35s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)