Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.5

Mejor modelo

Grok 4.1 Fast 3.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones18 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

210/210

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.009 Tiempo de respuesta (promedio) 683ms
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.003 Tiempo de respuesta (promedio) 13.0s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.548 Tiempo de respuesta (promedio) 2.58s
#148	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 2.63s
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.068 Tiempo de respuesta (promedio) 1.03s
#162	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 5.36s
#196	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 2.82s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.694 Tiempo de respuesta (promedio) 7.81s
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.535 Tiempo de respuesta (promedio) 7.47s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.300 Tiempo de respuesta (promedio) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.085 Tiempo de respuesta (promedio) 1.58s
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.357 Tiempo de respuesta (promedio) 6.31s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.478 Tiempo de respuesta (promedio) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.661 Tiempo de respuesta (promedio) 1.96s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.391 Tiempo de respuesta (promedio) 6.39s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)