Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Granite 4.1 8B 3.6

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.166 Tiempo de respuesta (promedio) 1.37s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 1.37s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.096 Tiempo de respuesta (promedio) 1.38s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.231 Tiempo de respuesta (promedio) 1.40s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.676 Tiempo de respuesta (promedio) 1.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.505 Tiempo de respuesta (promedio) 1.46s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.095 Tiempo de respuesta (promedio) 1.46s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.041 Tiempo de respuesta (promedio) 1.48s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.519 Tiempo de respuesta (promedio) 1.48s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.646 Tiempo de respuesta (promedio) 1.49s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.048 Tiempo de respuesta (promedio) 1.50s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.077 Tiempo de respuesta (promedio) 1.51s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.207 Tiempo de respuesta (promedio) 1.52s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.054 Tiempo de respuesta (promedio) 1.52s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.621 Tiempo de respuesta (promedio) 1.52s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)