Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta204 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

216/216

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#160	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	$0.068	1/3	1.30s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.068 Tiempo de respuesta (promedio) 1.30s
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 744ms
#165	GPT-5.6 Luna none	OpenAI	5.3	5.4	$0.142	1/3	790ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.142 Tiempo de respuesta (promedio) 790ms
#170	Inkling none	Thinkingmachines	5.6	5.2	$0.147	1/3	931ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.147 Tiempo de respuesta (promedio) 931ms
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 2.13s
#176	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 2.65s
#178	MiniMax M2.7 medium	Minimax	5.9	5.0	$0.163	1/3	24.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 24.9s
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 7.52s
#182	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 1.20s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 2.36s
#186	GPT-5.4 Nano none	OpenAI	5.4	4.8	$0.041	1/3	1.25s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.041 Tiempo de respuesta (promedio) 1.25s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $5.599 Tiempo de respuesta (promedio) 5.19s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 5.35s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.069 Tiempo de respuesta (promedio) 7.40s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.033 Tiempo de respuesta (promedio) 10.2s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)