Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta204 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

216/216

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#82	Mercury 2 medium	Inception	5.4	7.0	$0.093	1/3	949ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.093 Tiempo de respuesta (promedio) 949ms
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.467 Tiempo de respuesta (promedio) 3.20s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 5.31s
#90	Step 3.7 Flash high	Stepfun	5.3	6.9	$1.207	1/3	10.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.207 Tiempo de respuesta (promedio) 10.2s
#108	Laguna XS 2.1 medium	Poolside	5.3	6.5	$0.068	1/3	3.43s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.068 Tiempo de respuesta (promedio) 3.43s
#109	Qwen3.5-27B none	Qwen	6.7	6.5	$0.090	1/3	1.38s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.090 Tiempo de respuesta (promedio) 1.38s
#114	Ring-2.6-1T medium	Inclusionai	5.9	6.3	$0.103	1/3	20.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.103 Tiempo de respuesta (promedio) 20.7s
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.333 Tiempo de respuesta (promedio) 5.08s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.548 Tiempo de respuesta (promedio) 3.22s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/3	4.23s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.021 Tiempo de respuesta (promedio) 4.23s
#122	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.066 Tiempo de respuesta (promedio) 2.78s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 2.15s
#127	gpt-oss-120b medium	OpenAI	5.3	6.1	$0.019	1/3	21.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.019 Tiempo de respuesta (promedio) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	6.3	6.1	$0.046	1/3	720ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 720ms
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 2.97s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)