Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Step 3.5 Flash 0.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta214 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra10 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

220/220

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#184	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 7.52s
#195	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.033 Tiempo de respuesta (promedio) 10.2s
#205	Elephant Alpha medium	Openrouter	5.3	4.3	$0.000	1/3	868ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 868ms
#207	Grok 4.20 none	X AI	5.3	4.1	$0.057	1/3	473ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.057 Tiempo de respuesta (promedio) 473ms
#208	Laguna Xs.2 medium	Poolside	5.3	4.1	$0.015	1/3	1.93s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 1.93s
#210	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	1.86s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 1.86s
#215	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	650ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.004 Tiempo de respuesta (promedio) 650ms
#81	Kimi K2.5 medium	Moonshot AI	5.3	7.0	$0.600	1/3	43.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.600 Tiempo de respuesta (promedio) 43.2s
#154	Owl Alpha none	Openrouter	5.4	5.6	$0.000	1/3	4.18s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 4.18s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.478 Tiempo de respuesta (promedio) 8.84s
#82	Mercury 2 medium	Inception	5.4	7.0	$0.093	1/3	949ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.093 Tiempo de respuesta (promedio) 949ms
#142	GPT-5.4 Mini none	OpenAI	5.4	5.9	$0.095	1/3	836ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 836ms
#176	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 2.13s
#189	GPT-5.4 Nano none	OpenAI	5.4	4.8	$0.041	1/3	1.25s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.041 Tiempo de respuesta (promedio) 1.25s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.774 Tiempo de respuesta (promedio) 3.54s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)