Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Granite 4.1 8B 3.6

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.477 Tiempo de respuesta (promedio) 1.57s
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.085 Tiempo de respuesta (promedio) 1.58s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.454 Tiempo de respuesta (promedio) 1.58s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.369 Tiempo de respuesta (promedio) 1.59s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.184 Tiempo de respuesta (promedio) 1.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.041 Tiempo de respuesta (promedio) 1.64s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.073 Tiempo de respuesta (promedio) 1.67s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.015 Tiempo de respuesta (promedio) 1.68s
#170	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.147 Tiempo de respuesta (promedio) 1.72s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.067 Tiempo de respuesta (promedio) 1.75s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.017 Tiempo de respuesta (promedio) 1.79s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.082 Tiempo de respuesta (promedio) 1.80s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.187 Tiempo de respuesta (promedio) 1.81s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.515 Tiempo de respuesta (promedio) 1.83s
#167	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.061 Tiempo de respuesta (promedio) 1.86s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)