Ranking de modelos de Seguimiento de instrucciones

Categoría AI BENCHY

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Costo total ↑.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.5

Mejor modelo

North Mini Code 9.8

Motivos de fallo

Con motivo de fallo Respuesta incorrecta54 Con motivo de fallo No siguió las instrucciones12 Con motivo de fallo Formato extra2 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1

169/169

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#117	DeepSeek V4 Flash none	DeepSeek	6.5	5.5	$0.007	1/2	17.5s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.007 Tiempo de respuesta (promedio) 17.5s
#161	Grok 4.1 Fast none	X AI	3.0	4.0	$0.008	0/2	685ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 685ms
#137	Trinity Large Preview none	Arcee AI	3.5	5.0	$0.008	0/2	822ms
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 822ms
#148	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.008	1/2	7.49s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 7.49s
#130	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.009	1/2	7.78s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.009 Tiempo de respuesta (promedio) 7.78s
#164	gpt-oss-120b none	OpenAI	9.8	4.0	$0.010	2/2	5.06s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.010 Tiempo de respuesta (promedio) 5.06s
#145	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.011	1/2	784ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.011 Tiempo de respuesta (promedio) 784ms
#151	Mercury 2 none	Inception	6.5	4.6	$0.011	1/2	551ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.011 Tiempo de respuesta (promedio) 551ms
#103	Qwen3.5-35B-A3B none	Qwen	6.3	5.9	$0.012	1/2	809ms
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.012 Tiempo de respuesta (promedio) 809ms
#78	gpt-oss-120b medium	OpenAI	9.9	6.7	$0.013	2/2	7.63s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.013 Tiempo de respuesta (promedio) 7.63s
#96	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.013	2/2	859ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.013 Tiempo de respuesta (promedio) 859ms
#94	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.013	2/2	932ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.013 Tiempo de respuesta (promedio) 932ms
#102	Qwen3.6 Flash none	Qwen	6.3	6.0	$0.015	1/2	1.10s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 1.10s
#104	Qwen3.5-27B none	Qwen	6.3	5.9	$0.015	1/2	1.03s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 1.03s
#93	Gemini 2.5 Flash none	Google	10.0	6.2	$0.016	2/2	590ms
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.016 Tiempo de respuesta (promedio) 590ms

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)