Ranking de modelos de Seguimiento de instrucciones

Mira qué modelos de IA rinden mejor en Seguimiento de instrucciones, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Seguimiento de instrucciones

8.6

Mejor modelo

Gemini 3 Flash Preview 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta61 Con motivo de fallo No siguió las instrucciones19 Con motivo de fallo Formato extra3 Con motivo de fallo Sin respuesta2 Con motivo de fallo Error de API1 Con motivo de fallo Tiempo agotado1

216/216

Rango	Modelo	Empresa	Puntuación de Seguimiento de instrucciones	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.369 Tiempo de respuesta (promedio) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.068 Tiempo de respuesta (promedio) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.103 Tiempo de respuesta (promedio) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.187 Tiempo de respuesta (promedio) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.114 Tiempo de respuesta (promedio) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.750 Tiempo de respuesta (promedio) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.385 Tiempo de respuesta (promedio) 3.26s
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.000 Tiempo de respuesta (promedio) 15.4s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.164 Tiempo de respuesta (promedio) 1.98s
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $2.310 Tiempo de respuesta (promedio) 64.0s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.026 Tiempo de respuesta (promedio) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $5.599 Tiempo de respuesta (promedio) 3.52s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.547 Tiempo de respuesta (promedio) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.010 Tiempo de respuesta (promedio) 5.06s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.524 Tiempo de respuesta (promedio) 1.33s

Ranking de Seguimiento de instrucciones

Filtrar modelos

Mejores modelos por Puntuación de Seguimiento de instrucciones

Puntuación de Seguimiento de instrucciones vs costo total

Mejores modelos por Tiempo de respuesta (promedio)