Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Kimi K2.5 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.184 Tiempo de respuesta (promedio) 1.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.041 Tiempo de respuesta (promedio) 1.64s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.369 Tiempo de respuesta (promedio) 1.59s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.454 Tiempo de respuesta (promedio) 1.58s
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.085 Tiempo de respuesta (promedio) 1.58s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.477 Tiempo de respuesta (promedio) 1.57s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.621 Tiempo de respuesta (promedio) 1.52s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.054 Tiempo de respuesta (promedio) 1.52s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.207 Tiempo de respuesta (promedio) 1.52s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.077 Tiempo de respuesta (promedio) 1.51s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.048 Tiempo de respuesta (promedio) 1.50s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.646 Tiempo de respuesta (promedio) 1.49s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.519 Tiempo de respuesta (promedio) 1.48s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.041 Tiempo de respuesta (promedio) 1.48s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.095 Tiempo de respuesta (promedio) 1.46s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)