Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.5

Mejor modelo

Grok 4.1 Fast 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones18 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

210/210

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 685ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 822ms
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.007 Tiempo de respuesta (promedio) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 364ms
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 12.8s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 541ms
#209	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.020 Tiempo de respuesta (promedio) 9.30s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.544 Tiempo de respuesta (promedio) 1.15s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.122 Tiempo de respuesta (promedio) 1.17s
#161	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.061 Tiempo de respuesta (promedio) 1.86s
#194	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.166 Tiempo de respuesta (promedio) 2.97s
#152	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 1.92s
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 929ms
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.090 Tiempo de respuesta (promedio) 1.03s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.062 Tiempo de respuesta (promedio) 1.10s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)