AI BENCHY Compare

Qwen: Qwen3.5-Flash vs Z.ai: GLM 5.1

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-07

Métrica	Qwen3.5-Flash Qwen3.5-Flash medium Lanzamiento: 2026-02-24	GLM 5.1 GLM 5.1 medium Lanzamiento: 2026-04-07

Métrica	Qwen3.5-Flash Qwen3.5-Flash medium Lanzamiento: 2026-02-24	GLM 5.1 GLM 5.1 medium Lanzamiento: 2026-04-07
Puntuación	8.0	8.0
Rango	#24	#23
Consistencia	7.6	9.0
Pruebas correctas
Tasa de aciertos por intento	82.4%	76.5%
Pruebas inestables	5	2
Ejecuciones totales	51	51
Costo por resultado	0.688	1.270
Costo total	$0.076	$0.153
Precio de entrada	$0.065 / 1M	$1.000 / 1M
Precio de salida	$0.260 / 1M	$3.200 / 1M
Tokens de salida	1,827	6,666
Tokens de razonamiento	179,299	35,313
Tiempo de respuesta (promedio)	67.96s	18.23s
Tiempo de respuesta (máximo)	234.29s	43.11s
Tiempo de respuesta (total)	1155.28s	291.73s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	383	32,992
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	235	16,237
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	58	43,615
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	99	38,486
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	6.4	4.4	77.8%	2		56.74s	162	24,276
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsQwen3.5-Flashmedium GPT-5.2 ChatnonevsGLM 5.1medium GPT-5.3 ChatnonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3 Flash PreviewlowvsGLM 5.1medium Gemini 3 Flash PreviewlowvsQwen3.5-Flashmedium