Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta204 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

216/216

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#128	Gemini 3.1 Flash Lite none	Google	6.3	6.1	$0.046	1/3	720ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 720ms
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 744ms
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 5.35s
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.036 Tiempo de respuesta (promedio) 25.1s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.548 Tiempo de respuesta (promedio) 3.22s
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.010 Tiempo de respuesta (promedio) 8.21s
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.817	1/3	33.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.817 Tiempo de respuesta (promedio) 33.7s
#153	Mimo V2 PRO none	Xiaomi	6.0	5.6	$0.045	1/3	1.61s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.045 Tiempo de respuesta (promedio) 1.61s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 2.15s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.467 Tiempo de respuesta (promedio) 3.20s
#77	Grok 4.3 medium	X AI	5.9	7.1	$0.779	1/3	22.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.779 Tiempo de respuesta (promedio) 22.5s
#114	Ring-2.6-1T medium	Inclusionai	5.9	6.3	$0.103	1/3	20.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.103 Tiempo de respuesta (promedio) 20.7s
#135	Nemotron 3 Ultra none	NVIDIA	5.9	6.1	$0.095	1/3	1.06s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 1.06s
#140	Mimo V2 Omni medium	Xiaomi	5.9	5.9	$0.683	1/3	2.38s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.683 Tiempo de respuesta (promedio) 2.38s
#178	MiniMax M2.7 medium	Minimax	5.9	5.0	$0.163	1/3	24.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 24.9s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)