Navegación
AI BENCHY
Your ad here

AI BENCHY Compare

xAI: Grok 4.20 Multi-Agent Beta vs Z.ai: GLM 5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-17

Métrica Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lanzamiento: 2026-03-12 GLM 5 GLM 5 none Lanzamiento: 2026-02-12
Rango #44 #40
Puntuación 6.2 6.7
Consistencia 7.2 10.0
Costo por resultado 82.962 0.201
Costo total $4.978 $0.019
Pruebas correctas
Tasa de aciertos por intento 54.9% 52.9%
Pruebas inestables 6 0
Ejecuciones totales 51 51
Tokens de salida 298,948 1,551
Tokens de razonamiento 296,529 0
Tiempo de respuesta (promedio) 8.64s 3.77s
Tiempo de respuesta (máximo) 35.28s 11.07s
Tiempo de respuesta (total) 129.64s 37.66s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
GLM 5 4.8 10.0 25.0% 0 2.37s 275 0
Combinado Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 3.0 10.0 0.0% 0 4.98s 406 0
Análisis y extracción de datos Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
GLM 5 10.0 10.0 100.0% 0 5.78s 203 0
Específico del dominio Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
GLM 5 3.0 10.0 0.0% 0 2.24s 19 0
Inteligencia general Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
Seguimiento de instrucciones Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
Puzzle Solving Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
GLM 5 7.7 10.0 66.7% 0 2.05s 264 0
Llamada de herramientas Puntuación Consistencia Tasa de aciertos por intento Pruebas inestables Pruebas correctas Tiempo de respuesta (promedio) Tokens de salida Tokens de razonamiento
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0

Comparación rápida

Cambiar par de comparación