AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Resumen

Comparación benchmark de Step 3.5 Flash vs GLM 5: Step 3.5 Flash lidera en puntuación media con 6.6 vs 6.0. GLM 5 tiene menor coste de benchmark con $0.027 vs $0.070. GLM 5 es más rápido con 4.03s vs 72.53s, con tasas de acierto de 54.0% vs 44.4%.

Modelo recomendado: GLM 5 - Su puntuación se mantiene cerca de la mejor aquí (6.0 vs 6.6) y cuesta aproximadamente 2.6x menos que Step 3.5 Flash.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-18

Métrica	Step 3.5 Flash Step 3.5 Flash medium Lanzamiento: 2026-02-01	GLM 5 GLM 5 none Lanzamiento: 2026-02-12

Métrica	Step 3.5 Flash Step 3.5 Flash medium Lanzamiento: 2026-02-01	GLM 5 GLM 5 none Lanzamiento: 2026-02-12
Puntuación	6.6	6.0
Rango	#80	#101
Fiabilidad	10.0	10.0
Consistencia	8.9	9.7
Pruebas correctas
Tasa de aciertos por intento	54.0%	44.4%
Pruebas inestables	1	1
Ejecuciones totales	60	63
Costo por resultado	0.198	0.263
Costo total	$0.070	$0.027
Precio de entrada	$0.090 / 1M	$0.600 / 1M
Precio de salida	$0.300 / 1M	$1.920 / 1M
Total de tokens de entrada	34,431	37,135
Tokens de salida	91,587	1,989
Tokens de razonamiento	195,973	0
Tiempo de respuesta (promedio)	72.53s	4.03s
Tiempo de respuesta (máximo)	453.94s	11.07s
Tiempo de respuesta (total)	1015.47s	56.37s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Step 3.5 Flash

medium

Coste: $0.008
Tiempo: 277.1s
Tokens: 23,695 tok

#101 GLM 5

none

Coste: $0.007
Tiempo: 32.1s
Tokens: 2,023 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		40.57s	694	20,391	24,176
GLM 5	4.8	10.0	25.0%	0		2.37s	510	275	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	2.4	5.2	0.0%	0		258.38s	2,211	13,207	22,429
GLM 5	4.0	7.8	11.1%	1		5.12s	7,256	428	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	13,638	1,176	12,984
GLM 5	3.0	10.0	0.0%	0		4.98s	12,812	406	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	7,368	600	13,886
GLM 5	10.0	10.0	100.0%	0		5.78s	7,107	203	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	673	45,350	90,436
GLM 5	3.0	10.0	0.0%	0		2.24s	643	19	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	5.5	10.0	0.0%	0		22.39s	509	240	3,506
GLM 5	10.0	10.0	100.0%	0		3.27s	477	103	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	8.3	10.0	50.0%	0		4.78s	705	2,364	3,521
GLM 5	10.0	10.0	100.0%	0		1.48s	636	61	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	5.3	10.0	33.3%	0		7.22s	711	5,630	10,861
GLM 5	7.7	10.0	66.7%	0		1.91s	609	261	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	7,701	275	3,802
GLM 5	10.0	10.0	100.0%	0		11.07s	6,899	220	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	3.0	10.0	0.0%	0		108.45s	221	2,354	10,372
GLM 5	3.0	10.0	0.0%	0		3.62s	186	13	0

Comparación rápida

Cambiar par de comparación

North Mini CodemediumDisponible gratisvsGLM 5none Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium Gemini 3.1 Flash LiteminimalvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash LitelowvsStep 3.5 Flashmedium Gemini 3.5 FlashminimalvsStep 3.5 Flashmedium Qwen3.7 MaxnonevsStep 3.5 Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmedium Qwen3.5-35B-A3BmediumvsGLM 5none GPT-5.5nonevsStep 3.5 Flashmedium Gemma 4 31BmediumDisponible gratisvsGLM 5none Nemotron 3 SupermediumDisponible gratisvsGLM 5none