AI BENCHY Compare

OpenAI: GPT-5.4 vs Z.ai: GLM 5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-15

Métrica	GPT-5.4 GPT-5.4 medium Lanzamiento: 2026-03-05	GLM 5 GLM 5 medium Lanzamiento: 2026-02-12

Métrica	GPT-5.4 GPT-5.4 medium Lanzamiento: 2026-03-05	GLM 5 GLM 5 medium Lanzamiento: 2026-02-12
Rango	#9	#13
Puntuación	8.5	8.2
Consistencia	8.5	8.0
Costo por resultado	6.601	0.933
Costo total	$0.793	$0.103
Pruebas correctas
Tasa de aciertos por intento	83.3%	83.3%
Pruebas inestables	3	4
Ejecuciones totales	48	48
Tokens de salida	1,756	19,773
Tokens de razonamiento	46,642	36,459
Tiempo de respuesta (promedio)	20.05s	16.16s
Tiempo de respuesta (máximo)	100.41s	28.96s
Tiempo de respuesta (total)	320.87s	129.26s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466
GLM 5	10.0	10.0	100.0%	0		22.26s	420	4,992

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Comparación rápida

Cambiar par de comparación

GPT-5.2 ChatnonevsGLM 5medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium GPT-5.3 ChatnonevsGLM 5medium Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Claude Sonnet 4.6nonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Sonnet 4.6nonevsGPT-5.4medium