AI BENCHY Compare

Qwen: Qwen3.5-9B vs Z.ai: GLM 4.7 Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lanzamiento: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash none Lanzamiento: 2026-01-19

Métrica	Qwen3.5-9B Qwen3.5-9B medium Lanzamiento: 2026-03-02	GLM 4.7 Flash GLM 4.7 Flash none Lanzamiento: 2026-01-19
Rango	#66	#57
Puntaje prom.	2.6	3.9
Consistencia	7.4	8.4
Costo por resultado	0.779	0.066
Costo total	$0.024	$0.003
Pruebas correctas
Tasa de aciertos por intento	35.4%	35.4%
Pruebas inestables	5	3
Ejecuciones totales	48	48
Tokens de salida	17,930	1,855
Tokens de razonamiento	139,706	0
Tiempo de respuesta (promedio)	71.44s	2.99s
Tiempo de respuesta (máximo)	226.38s	7.05s
Tiempo de respuesta (total)	928.77s	26.90s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913
GLM 4.7 Flash	10.0	7.2	22.2%	1		6.59s	430	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0
GLM 4.7 Flash	10.0	10.0	0.0%	0		3.22s	704	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113
GLM 4.7 Flash	5.4	5.8	83.3%	1		4.82s	196	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475
GLM 4.7 Flash	7.0	10.0	66.7%	0		744ms	19	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695
GLM 4.7 Flash	3.0	10.0	0.0%	0		1.59s	134	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517
GLM 4.7 Flash	5.5	10.0	50.0%	0		888ms	62	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844
GLM 4.7 Flash	3.7	10.0	0.0%	0		1.00s	98	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
GLM 4.7 Flash	10.0	1.6	33.3%	1		7.05s	212	0

Comparación rápida

Cambiar par de comparación

Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3 Coder NextmediumvsGLM 4.7 Flashnone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneDisponible gratisvsQwen3.5-9Bmedium MiniMax M2.5mediumvsGLM 4.7 Flashnone Grok 4.20 Multi-Agent BetamediumvsGLM 4.7 Flashnone gpt-oss-120bmediumDisponible gratisvsGLM 4.7 Flashnone GPT-4o-mininonevsQwen3.5-9Bmedium Mercury 2mediumvsGLM 4.7 Flashnone Kimi K2.5nonevsQwen3.5-9Bmedium Trinity Large PreviewnoneDisponible gratisvsQwen3.5-9Bmedium