Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.5

Mejor modelo

Granite 4.1 8B 3.6

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones18 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

210/210

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.095 Tiempo de respuesta (promedio) 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.025 Tiempo de respuesta (promedio) 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.001 Tiempo de respuesta (promedio) 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.041 Tiempo de respuesta (promedio) 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.025 Tiempo de respuesta (promedio) 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.046 Tiempo de respuesta (promedio) 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.300 Tiempo de respuesta (promedio) 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.106 Tiempo de respuesta (promedio) 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.047 Tiempo de respuesta (promedio) 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.197 Tiempo de respuesta (promedio) 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.000 Tiempo de respuesta (promedio) 987ms

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)