Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	StepFun: Step 3.5 Flash medium Lanzamiento: 2026-02-01 Disponible gratis	Z.ai: GLM 5 none Lanzamiento: 2026-02-12
Rango	#13	#31
Puntaje prom.	7.4	6.0
Consistencia	9.1	10.0
Costo por resultado	0.000	0.200
Costo total	$0.000	$0.018
Pruebas correctas
Tasa de aciertos por intento	68.8%	56.3%
Pruebas inestables	2	0
Ejecuciones totales	48	48
Tokens de salida	71,452	1,548
Tokens de razonamiento	155,147	0
Tiempo de respuesta (promedio)	29.10s	4.03s
Tiempo de respuesta (máximo)	170.45s	11.07s
Tiempo de respuesta (total)	290.96s	36.30s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208
Z.ai: GLM 5	4.0	10.0	33.3%	0		3.39s	272	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984
Z.ai: GLM 5	10.0	10.0	0.0%	0		4.98s	406	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886
Z.ai: GLM 5	9.9	10.0	100.0%	0		5.78s	203	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436
Z.ai: GLM 5	10.0	10.0	0.0%	0		2.24s	19	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584
Z.ai: GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412
Z.ai: GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835
Z.ai: GLM 5	7.0	10.0	66.7%	0		2.05s	264	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802
Z.ai: GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Comparación rápida

Cambiar par de comparación

GPT-5 MinimediumvsGLM 5none GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis Grok 4.1 FastmediumvsGLM 5none Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratis Kimi K2.5mediumvsGLM 5none GPT-5 NanomediumvsGLM 5none GPT-5.2mediumvsGLM 5none Qwen3.5-35B-A3BmediumvsGLM 5none Claude Opus 4.6mediumvsGLM 5none