AI BENCHY Compare

Grok 4.20 Multi Agent Beta vs Z.ai: GLM 5.1

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-07

Métrica	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lanzamiento: 2026-03-12	GLM 5.1 GLM 5.1 none Lanzamiento: 2026-04-07

Métrica	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lanzamiento: 2026-03-12	GLM 5.1 GLM 5.1 none Lanzamiento: 2026-04-07
Puntuación	6.2	5.6
Rango	#56	#67
Consistencia	7.2	8.2
Pruebas correctas
Tasa de aciertos por intento	54.9%	39.2%
Pruebas inestables	6	4
Ejecuciones totales	51	51
Costo por resultado	82.962	1.000
Costo total	$4.978	$0.050
Precio de entrada	$0.000 / 1M	$1.000 / 1M
Precio de salida	$0.000 / 1M	$3.200 / 1M
Tokens de salida	298,948	3,219
Tokens de razonamiento	296,529	0
Tiempo de respuesta (promedio)	8.64s	4.01s
Tiempo de respuesta (máximo)	35.28s	32.57s
Tiempo de respuesta (total)	129.64s	68.23s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Comparación rápida

Cambiar par de comparación

Gemma 4 26B A4BnoneDisponible gratisvsGrok 4.20 Multi Agent Betamedium Mistral Small 4mediumvsGLM 5.1none DeepSeek V3.2nonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi Agent Betamedium Grok 4.20 Multi Agent BetamediumvsMiMo-V2-Omninone MiniMax M2.5mediumDisponible gratisvsGLM 5.1none Grok 4.20 Multi Agent BetamediumvsGLM 5V Turbonone Seed-2.0-LitenonevsGrok 4.20 Multi Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi Agent Betamedium gpt-oss-120bmediumDisponible gratisvsGLM 5.1none Hunter AlphanonevsGrok 4.20 Multi Agent Betamedium