Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta214 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra10 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

220/220

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.476 Tiempo de respuesta (promedio) 3.03s
#107	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.082 Tiempo de respuesta (promedio) 20.3s
#120	Qwen3.5-Flash medium	Qwen	8.2	6.2	$0.139	2/3	27.6s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.139 Tiempo de respuesta (promedio) 27.6s
#125	Qwen3.5-35B-A3B medium	Qwen	8.2	6.2	$0.837	2/3	33.1s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.837 Tiempo de respuesta (promedio) 33.1s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.627 Tiempo de respuesta (promedio) 59.6s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.746 Tiempo de respuesta (promedio) 5.95s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.357 Tiempo de respuesta (promedio) 42.5s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.286 Tiempo de respuesta (promedio) 49.9s
#30	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.694 Tiempo de respuesta (promedio) 70.0s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.352 Tiempo de respuesta (promedio) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.756 Tiempo de respuesta (promedio) 4.37s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.145 Tiempo de respuesta (promedio) 1.22s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.642 Tiempo de respuesta (promedio) 2.38s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $3.478 Tiempo de respuesta (promedio) 5.18s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.922 Tiempo de respuesta (promedio) 2.98s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)