Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Gemini 3 Flash Preview 10.0

Motivos de fallo

Con motivo de fallo Respuesta incorrecta201 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

210/210

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $3.112 Tiempo de respuesta (promedio) 7.36s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	3/3	16.4s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.267 Tiempo de respuesta (promedio) 16.4s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.405 Tiempo de respuesta (promedio) 6.34s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	3/3	5.31s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $2.057 Tiempo de respuesta (promedio) 5.31s
#41	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $2.077 Tiempo de respuesta (promedio) 3.01s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	3/3	11.3s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.307 Tiempo de respuesta (promedio) 11.3s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.571 Tiempo de respuesta (promedio) 2.99s
#55	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	3/3	4.46s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.519 Tiempo de respuesta (promedio) 4.46s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	3/3	32.5s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.437 Tiempo de respuesta (promedio) 32.5s
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	3/3	1.13s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.197 Tiempo de respuesta (promedio) 1.13s
#61	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	3/3	5.77s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.177 Tiempo de respuesta (promedio) 5.77s
#72	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	3/3	17.9s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.046 Tiempo de respuesta (promedio) 17.9s
#79	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $1.079 Tiempo de respuesta (promedio) 3.13s
#82	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	3/3	3.61s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.096 Tiempo de respuesta (promedio) 3.61s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	1.45s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.300 Tiempo de respuesta (promedio) 1.45s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)