Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

GPT-5.4 Nano 4.1

Motivos de fallo

Con motivo de fallo Respuesta incorrecta204 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

216/216

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#195	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.030 Tiempo de respuesta (promedio) 535ms
#198	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.009 Tiempo de respuesta (promedio) 891ms
#199	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 807ms
#200	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.166 Tiempo de respuesta (promedio) 12.9s
#205	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 4.56s
#207	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 608ms
#209	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.008 Tiempo de respuesta (promedio) 1.10s
#210	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.036 Tiempo de respuesta (promedio) 32.3s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 1.40s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 532ms
#215	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
Pruebas totales 0 Pruebas incorrectas 0 Costo total $0.020 Tiempo de respuesta (promedio) 0ms
#216	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.001 Tiempo de respuesta (promedio) 1.78s
#29	GPT-5 Mini medium	OpenAI	5.6	8.1	$0.237	1/3	15.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.237 Tiempo de respuesta (promedio) 15.2s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.006 Tiempo de respuesta (promedio) 10.7s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.515 Tiempo de respuesta (promedio) 6.19s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)