Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Step 3.5 Flash 0.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta214 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra10 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

220/220

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/3	4.23s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.021 Tiempo de respuesta (promedio) 4.23s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 5.31s
#109	Qwen3.5-27B none	Qwen	6.7	6.5	$0.090	1/3	1.38s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.090 Tiempo de respuesta (promedio) 1.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.122 Tiempo de respuesta (promedio) 1.97s
#190	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $5.599 Tiempo de respuesta (promedio) 5.19s
#160	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	$0.068	1/3	1.30s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.068 Tiempo de respuesta (promedio) 1.30s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.006 Tiempo de respuesta (promedio) 10.7s
#50	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.200 Tiempo de respuesta (promedio) 56.8s
#80	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.078 Tiempo de respuesta (promedio) 37.7s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.951 Tiempo de respuesta (promedio) 5.80s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.017 Tiempo de respuesta (promedio) 14.6s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.117 Tiempo de respuesta (promedio) 1.95s
#123	GPT-5.6 Luna low	OpenAI	7.6	6.2	$0.249	2/3	3.59s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.249 Tiempo de respuesta (promedio) 3.59s
#182	DeepSeek V3.2 none	DeepSeek	7.6	5.0	$0.054	2/3	6.91s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.054 Tiempo de respuesta (promedio) 6.91s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.642 Tiempo de respuesta (promedio) 2.38s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)