Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

GPT-5.4 Nano 4.1

Motivos de fallo

Con motivo de fallo Respuesta incorrecta204 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

216/216

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 2.13s
#176	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 2.65s
#178	MiniMax M2.7 medium	Minimax	5.9	5.0	$0.163	1/3	24.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 24.9s
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 7.52s
#182	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 1.20s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 2.36s
#186	GPT-5.4 Nano none	OpenAI	5.4	4.8	$0.041	1/3	1.25s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.041 Tiempo de respuesta (promedio) 1.25s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $5.599 Tiempo de respuesta (promedio) 5.19s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 5.35s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.069 Tiempo de respuesta (promedio) 7.40s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.033 Tiempo de respuesta (promedio) 10.2s
#196	MiniMax M2.5 medium	Minimax	5.3	4.6	$0.340	1/3	11.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.340 Tiempo de respuesta (promedio) 11.2s
#201	Elephant Alpha medium	Openrouter	5.3	4.3	$0.000	1/3	868ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 868ms
#202	Hunter Alpha none	OpenRouter	5.8	4.2	$0.000	1/3	3.71s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 3.71s
#203	Grok 4.20 none	X AI	5.3	4.1	$0.057	1/3	473ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.057 Tiempo de respuesta (promedio) 473ms

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)