Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Grok 4.1 Fast 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 30.7s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 888ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.069 Tiempo de respuesta (promedio) 4.63s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.030 Tiempo de respuesta (promedio) 551ms
#206	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.025 Tiempo de respuesta (promedio) 857ms
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.036 Tiempo de respuesta (promedio) 5.75s
#211	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.004 Tiempo de respuesta (promedio) 439ms
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.142 Tiempo de respuesta (promedio) 1.23s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.055 Tiempo de respuesta (promedio) 6.97s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 1.37s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.647 Tiempo de respuesta (promedio) 5.42s
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $2.044 Tiempo de respuesta (promedio) 23.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.096 Tiempo de respuesta (promedio) 1.38s
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.340 Tiempo de respuesta (promedio) 621ms

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)