AI BENCHY Compare

Qwen: Qwen3.5-9B vs Z.ai: GLM 4.7 Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lanzamiento: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash medium Lanzamiento: 2026-01-19

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lanzamiento: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash medium Lanzamiento: 2026-01-19
Rango	#66	#62
Puntaje prom.	2.6	3.1
Consistencia	7.4	6.4
Costo por resultado	0.779	1.040
Costo total	$0.024	$0.042
Pruebas correctas
Tasa de aciertos por intento	35.4%	41.7%
Pruebas inestables	5	7
Ejecuciones totales	48	48
Tokens de salida	17,930	38,682
Tokens de razonamiento	139,706	64,952
Tiempo de respuesta (promedio)	71.44s	36.84s
Tiempo de respuesta (máximo)	226.38s	174.55s
Tiempo de respuesta (total)	928.77s	331.58s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913
GLM 4.7 Flash	4.0	4.5	55.6%	2		27.09s	1,085	5,597

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0
GLM 4.7 Flash	10.0	2.1	33.3%	1		65.57s	2,585	20,648

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113
GLM 4.7 Flash	5.0	10.0	50.0%	0		1.51s	584	2,755

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475
GLM 4.7 Flash	10.0	4.4	33.3%	2		174.55s	33,000	25,394

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695
GLM 4.7 Flash	10.0	9.7	0.0%	0		18.14s	18	2,138

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517
GLM 4.7 Flash	5.0	5.8	66.7%	1		2.97s	388	2,181

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844
GLM 4.7 Flash	10.0	7.2	11.1%	1		12.90s	798	5,225

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Comparación rápida

Cambiar par de comparación

Grok 4.1 FastnonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsMiMo-V2-Flashnone Nemotron 3 Super 120b A12bnoneDisponible gratisvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.1 Fastnone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneDisponible gratisvsQwen3.5-9Bmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Kimi K2.5nonevsGLM 4.7 Flashmedium