Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Gemini 3 Flash Preview 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.661 Tiempo de respuesta (promedio) 1.96s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.391 Tiempo de respuesta (promedio) 6.39s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.469 Tiempo de respuesta (promedio) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.044 Tiempo de respuesta (promedio) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.184 Tiempo de respuesta (promedio) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.397 Tiempo de respuesta (promedio) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.052 Tiempo de respuesta (promedio) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.045 Tiempo de respuesta (promedio) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.042	1/2	17.5s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.042 Tiempo de respuesta (promedio) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.127 Tiempo de respuesta (promedio) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 4.26s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.022 Tiempo de respuesta (promedio) 380ms
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.025 Tiempo de respuesta (promedio) 751ms

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)