AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Z.ai: GLM 5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-17

Métrica	GPT-5.4 Mini GPT-5.4 Mini medium Lanzamiento: 2026-03-17	GLM 5 GLM 5 none Lanzamiento: 2026-02-12

Métrica	GPT-5.4 Mini GPT-5.4 Mini medium Lanzamiento: 2026-03-17	GLM 5 GLM 5 none Lanzamiento: 2026-02-12
Rango	#34	#40
Puntuación	7.1	6.7
Consistencia	7.2	10.0
Costo por resultado	3.610	0.201
Costo total	$0.289	$0.019
Pruebas correctas
Tasa de aciertos por intento	68.6%	52.9%
Pruebas inestables	6	0
Ejecuciones totales	51	51
Tokens de salida	1,708	1,551
Tokens de razonamiento	58,019	0
Tiempo de respuesta (promedio)	15.66s	3.77s
Tiempo de respuesta (máximo)	102.91s	11.07s
Tiempo de respuesta (total)	266.14s	37.66s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0

Comparación rápida

Cambiar par de comparación

GPT-5 MinimediumvsGLM 5none Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Nemotron 3 Super 120b A12bmediumDisponible gratisvsGLM 5none Grok 4.1 FastmediumvsGLM 5none Hunter AlphamediumvsGLM 5none GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsGLM 5none GPT-5 NanomediumvsGLM 5none Kimi K2.5mediumvsGLM 5none Grok 4.20 Multi-Agent BetamediumvsGLM 5none Qwen3.5-35B-A3BmediumvsGLM 5none GPT-5.2mediumvsGLM 5none