Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.5

Mejor modelo

Granite 4.1 8B 3.6

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones18 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

210/210

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.007 Tiempo de respuesta (promedio) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 364ms
#165	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.022 Tiempo de respuesta (promedio) 380ms
#205	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.004 Tiempo de respuesta (promedio) 439ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.057 Tiempo de respuesta (promedio) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.247 Tiempo de respuesta (promedio) 513ms
#169	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 541ms
#189	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.030 Tiempo de respuesta (promedio) 551ms
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.017 Tiempo de respuesta (promedio) 590ms
#190	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.340 Tiempo de respuesta (promedio) 621ms
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 649ms
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.009 Tiempo de respuesta (promedio) 683ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 685ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 690ms

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)