Ranking de modelos de Resolución de acertijos

Mira qué modelos de IA rinden mejor en Resolución de acertijos, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Promedio de Puntuación de Resolución de acertijos

6.7

Mejor modelo

Muse Spark 1.1 7.8

Motivos de fallo

Con motivo de fallo Respuesta incorrecta204 Con motivo de fallo No siguió las instrucciones90 Con motivo de fallo Error de API12 Con motivo de fallo Formato extra8 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Sin respuesta3

216/216

Rango	Modelo	Empresa	Puntuación de Resolución de acertijos	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.746 Tiempo de respuesta (promedio) 5.95s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.951 Tiempo de respuesta (promedio) 5.80s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	3/3	5.79s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.089 Tiempo de respuesta (promedio) 5.79s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	3/3	5.77s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.177 Tiempo de respuesta (promedio) 5.77s
#38	GPT-5.6 Terra high	OpenAI	7.7	8.0	$1.055	2/3	5.45s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.055 Tiempo de respuesta (promedio) 5.45s
#168	Ling-2.6-1T none	Inclusionai	3.1	5.3	$0.016	0/3	5.36s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.016 Tiempo de respuesta (promedio) 5.36s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 5.35s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 5.31s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	3/3	5.31s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $2.057 Tiempo de respuesta (promedio) 5.31s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.115 Tiempo de respuesta (promedio) 5.30s
#53	GLM 5 Turbo medium	Z.ai	8.7	7.6	$0.323	2/3	5.23s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.323 Tiempo de respuesta (promedio) 5.23s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $5.599 Tiempo de respuesta (promedio) 5.19s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $3.478 Tiempo de respuesta (promedio) 5.18s
#36	Inkling medium	Thinkingmachines	10.0	8.0	$0.391	3/3	5.18s
Pruebas totales 3 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 5.18s
#158	Qwen3.6 27B none	Qwen	5.3	5.5	$0.087	1/3	5.15s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.087 Tiempo de respuesta (promedio) 5.15s

Ranking de Resolución de acertijos

Filtrar modelos

Mejores modelos por Puntuación de Resolución de acertijos

Puntuación de Resolución de acertijos vs costo total

Mejores modelos por Tiempo de respuesta (promedio)