Navegación
AI BENCHY
Advertise here

AI BENCHY Compare

OpenAI: GPT-5.4 vs Z.ai: GLM 5.2

Resumen

Comparación benchmark de GPT-5.4 vs GLM 5.2: GLM 5.2 lidera en puntuación media con 8.7 vs 8.5. GLM 5.2 tiene menor coste de benchmark con $0.324 vs $1.210. GPT-5.4 es más rápido con 22.35s vs 23.28s, con tasas de acierto de 76.2% vs 84.1%.

Modelo recomendado: GLM 5.2 - Tiene la mejor puntuación aquí (8.7) y cuesta aproximadamente 3.7x menos que GPT-5.4.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-17

Métrica GPT-5.4 GPT-5.4 medium Lanzamiento: 2026-03-05 GLM 5.2 GLM 5.2 medium Lanzamiento: 2026-06-17
Puntuación 8.5 8.7
Rango #17 #14
Fiabilidad 10.0 9.5
Consistencia 8.6 8.4
Pruebas correctas
Tasa de aciertos por intento 76.2% 84.1%
Pruebas inestables 4 4
Ejecuciones totales 63 63
Costo por resultado 8.640 2.159
Costo total $1.210 $0.324
Precio de entrada $2.500 / 1M $1.400 / 1M
Precio de salida $15.000 / 1M $4.400 / 1M
Total de tokens de entrada 34,108 37,199
Tokens de salida 2,242 12,261
Tokens de razonamiento 72,707 49,500
Tiempo de respuesta (promedio) 22.35s 23.28s
Tiempo de respuesta (máximo) 100.41s 101.36s
Tiempo de respuesta (total) 469.29s 488.94s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#17 GPT-5.4

medium
Cost
$0.214
Time
199.6s
Tokens
14,349 tok

#14 GLM 5.2

medium
Cost
$0.041
Time
195.8s
Tokens
9,287 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 8.3 10.0 75.0% 0 4.11s 606 240 1,511
GLM 5.2 10.0 10.0 100.0% 0 5.89s 639 497 2,634
Programación Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 8.8 7.8 88.9% 1 44.36s 7,305 433 24,216
GLM 5.2 8.2 7.2 88.9% 1 40.96s 7,317 1,475 17,123
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 10.0 10.0 100.0% 0 20.57s 11,019 301 3,543
GLM 5.2 10.0 10.0 100.0% 0 51.96s 12,696 458 4,531
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 10.0 10.0 100.0% 0 5.32s 7,140 234 804
GLM 5.2 10.0 10.0 100.0% 0 13.44s 7,149 348 2,345
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 5.3 7.2 44.4% 1 74.27s 619 61 34,748
GLM 5.2 4.1 4.4 44.5% 2 45.47s 551 8,188 11,606
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 4.7 3.1 33.3% 1 4.92s 477 145 321
GLM 5.2 10.0 10.0 100.0% 0 17.39s 498 54 1,842
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 10.0 10.0 100.0% 0 3.11s 660 93 897
GLM 5.2 9.9 10.0 100.0% 0 7.90s 678 94 1,518
Resolución de acertijos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 8.2 7.2 88.9% 1 9.14s 642 441 3,815
GLM 5.2 8.2 7.2 88.9% 1 13.13s 672 536 4,822
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 10.0 10.0 100.0% 0 13.28s 5,445 264 1,031
GLM 5.2 10.0 10.0 100.0% 0 20.41s 6,861 230 550
Cultura general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de entrada Tokens de salida Tokens de razonamiento
GPT-5.4 3.0 10.0 0.0% 0 13.95s 195 30 1,821
GLM 5.2 3.0 10.0 0.0% 0 34.25s 138 381 2,529

Comparación rápida

Cambiar par de comparación