AI BENCHY Compare

Qwen: Qwen3.6 27B vs Z.ai: GLM 5

Resumen

Comparación benchmark de Qwen3.6 27B vs GLM 5: GLM 5 lidera en puntuación media con 6.1 vs 5.6. Qwen3.6 27B tiene menor coste de benchmark con $0.025 vs $0.027. Qwen3.6 27B es más rápido con 3.72s vs 4.03s, con tasas de acierto de 47.6% vs 44.4%.

Modelo recomendado: GLM 5 - Tiene la puntuación más alta en esta comparación (6.1) y el mejor equilibrio general entre coste y tiempo de respuesta en los 2 modelos.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-10

Métrica	Qwen3.6 27B Qwen3.6 27B none Lanzamiento: 2026-04-20	GLM 5 GLM 5 none Lanzamiento: 2026-02-12

Métrica	Qwen3.6 27B Qwen3.6 27B none Lanzamiento: 2026-04-20	GLM 5 GLM 5 none Lanzamiento: 2026-02-12
Puntuación	5.6	6.1
Rango	#119	#99
Fiabilidad	10.0	10.0
Consistencia	7.6	9.7
Pruebas correctas
Tasa de aciertos por intento	47.6%	44.4%
Pruebas inestables	6	1
Ejecuciones totales	63	63
Costo por resultado	0.467	0.263
Costo total	$0.025	$0.027
Precio de entrada	$0.290 / 1M	$0.600 / 1M
Precio de salida	$2.400 / 1M	$1.920 / 1M
Total de tokens de entrada	52,721	37,135
Tokens de salida	3,812	1,989
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	3.72s	4.03s
Tiempo de respuesta (máximo)	11.82s	11.07s
Tiempo de respuesta (total)	78.08s	56.37s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#119 Qwen3.6 27B

none

Cost: $0.009
Time: 83.0s
Tokens: 4,549 tok

#99 GLM 5

none

Cost: $0.007
Time: 32.1s
Tokens: 2,023 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	3.8	3.7	41.7%	3		2.83s	696	490	0
GLM 5	4.8	10.0	25.0%	0		2.37s	510	275	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	5.5	10.0	33.3%	0		4.16s	7,913	539	0
GLM 5	4.0	7.8	11.1%	1		5.12s	7,256	428	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	3.0	10.0	0.0%	0		9.95s	22,497	1,401	0
GLM 5	3.0	10.0	0.0%	0		4.98s	12,812	406	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	7.3	5.8	83.3%	1		2.06s	7,788	248	0
GLM 5	10.0	10.0	100.0%	0		5.78s	7,107	203	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	7.7	10.0	66.7%	0		3.03s	789	24	0
GLM 5	3.0	10.0	0.0%	0		2.24s	643	19	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	5.2	9.9	0.0%	0		1.07s	522	72	0
GLM 5	10.0	10.0	100.0%	0		3.27s	477	103	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	6.2	5.8	66.7%	1		1.92s	711	49	0
GLM 5	10.0	10.0	100.0%	0		1.48s	636	61	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	5.3	7.2	44.4%	1		5.15s	714	639	0
GLM 5	7.7	10.0	66.7%	0		1.91s	609	261	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	9.5	10.0	100.0%	0		6.74s	10,881	339	0
GLM 5	10.0	10.0	100.0%	0		11.07s	6,899	220	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Qwen3.6 27B	3.0	10.0	0.0%	0		4.03s	210	11	0
GLM 5	3.0	10.0	0.0%	0		3.62s	186	13	0

Comparación rápida

Cambiar par de comparación

CobuddymediumvsQwen3.6 27Bnone gpt-oss-120bmediumDisponible gratisvsGLM 5none DeepSeek V4 ProhighvsGLM 5none Nemotron 3 SupermediumDisponible gratisvsQwen3.6 27Bnone GPT-5 NanomediumvsGLM 5none Gemini 3.1 Flash LiteminimalvsGLM 5none MiniMax M2.5mediumvsQwen3.6 27Bnone MiniMax M2.7mediumvsQwen3.6 27Bnone Nemotron 3 SupermediumDisponible gratisvsGLM 5none Mistral Small 4mediumvsQwen3.6 27Bnone DeepSeek V4 ProhighvsQwen3.6 27Bnone gpt-oss-120bmediumDisponible gratisvsQwen3.6 27Bnone