Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Step 3.5 Flash 0.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta214 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra10 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

220/220

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.467 Tiempo de respuesta (promedio) 3.20s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 2.15s
#153	Mimo V2 PRO none	Xiaomi	6.0	5.6	$0.045	1/3	1.61s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.045 Tiempo de respuesta (promedio) 1.61s
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.796	1/3	33.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.796 Tiempo de respuesta (promedio) 33.7s
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.036 Tiempo de respuesta (promedio) 25.1s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.548 Tiempo de respuesta (promedio) 3.22s
#216	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.010 Tiempo de respuesta (promedio) 8.21s
#193	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 5.35s
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 744ms
#128	Gemini 3.1 Flash Lite none	Google	6.3	6.1	$0.046	1/3	720ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 720ms
#212	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.547 Tiempo de respuesta (promedio) 9.55s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 2.97s
#185	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 1.20s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.387 Tiempo de respuesta (promedio) 3.11s
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.333 Tiempo de respuesta (promedio) 5.08s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)