Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Kimi K2.5 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#78	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.535 Tiempo de respuesta (promedio) 7.47s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	2/2	7.46s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.116 Tiempo de respuesta (promedio) 7.46s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.478 Tiempo de respuesta (promedio) 7.38s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.547 Tiempo de respuesta (promedio) 7.36s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.234 Tiempo de respuesta (promedio) 7.26s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.307 Tiempo de respuesta (promedio) 7.25s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.177 Tiempo de respuesta (promedio) 7.02s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.006 Tiempo de respuesta (promedio) 7.00s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.055 Tiempo de respuesta (promedio) 6.97s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.469 Tiempo de respuesta (promedio) 6.96s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.391 Tiempo de respuesta (promedio) 6.39s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.774 Tiempo de respuesta (promedio) 6.35s
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.357 Tiempo de respuesta (promedio) 6.31s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.707 Tiempo de respuesta (promedio) 6.23s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 6.17s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)