AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5.1

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-29

Métrica	Step 3.5 Flash Step 3.5 Flash medium Lanzamiento: 2026-02-01	GLM 5.1 GLM 5.1 medium Lanzamiento: 2026-04-07

Métrica	Step 3.5 Flash Step 3.5 Flash medium Lanzamiento: 2026-02-01	GLM 5.1 GLM 5.1 medium Lanzamiento: 2026-04-07
Puntuación	7.9	7.8
Rango	#40	#44
Fiabilidad	N/D	N/D
Consistencia	9.1	8.6
Pruebas correctas
Tasa de aciertos por intento	70.6%	75.9%
Pruebas inestables	2	3
Ejecuciones totales	49	54
Costo por resultado	0.000	1.674
Costo total	$0.000	$0.201
Precio de entrada	$0.100 / 1M	$1.050 / 1M
Precio de salida	$0.300 / 1M	$3.500 / 1M
Tokens de salida	71,904	8,005
Tokens de razonamiento	155,607	49,090
Tiempo de respuesta (promedio)	26.78s	24.13s
Tiempo de respuesta (máximo)	170.45s	118.52s
Tiempo de respuesta (total)	294.58s	410.25s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		13.56s	14,376	17,668
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	45,350	90,436
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	5.5	10.0	0.0%	0		6.54s	2,214	2,584
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	8.5	6.8	83.3%	1		4.98s	2,284	3,412
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	5.3	10.0	33.3%	0		7.72s	5,629	10,835
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Step 3.5 Flash	-	-	-	-	-	-	-	-
GLM 5.1	4.7	1.6	66.7%	1		118.52s	1,339	13,777

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium GPT-5.2 ChatnonevsStep 3.5 Flashmedium DeepSeek V4 FlashhighvsGLM 5.1medium DeepSeek V4 FlashhighvsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium GPT-5.3 ChatnonevsStep 3.5 Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmedium Step 3.5 FlashmediumvsHY3 PreviewlowDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium