AI BENCHY Compare

xAI: Grok 4.20 vs Z.ai: GLM 4.7 Flash

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-02

Métrica	Grok 4.20 Grok 4.20 none Lanzamiento: 2026-03-31	GLM 4.7 Flash GLM 4.7 Flash medium Lanzamiento: 2026-01-19

Métrica	Grok 4.20 Grok 4.20 none Lanzamiento: 2026-03-31	GLM 4.7 Flash GLM 4.7 Flash medium Lanzamiento: 2026-01-19
Puntuación	5.4	4.7
Rango	#69	#82
Consistencia	9.5	6.6
Pruebas correctas
Tasa de aciertos por intento	31.4%	39.2%
Pruebas inestables	1	7
Ejecuciones totales	51	51
Costo por resultado	1.809	1.046
Costo total	$0.091	$0.042
Precio de entrada	$2.000 / 1M	$0.060 / 1M
Precio de salida	$6.000 / 1M	$0.400 / 1M
Tokens de salida	1,655	38,719
Tokens de razonamiento	0	65,465
Tiempo de respuesta (promedio)	1.11s	33.44s
Tiempo de respuesta (máximo)	6.04s	174.55s
Tiempo de respuesta (total)	18.80s	334.39s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.90s	798	5,225

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Comparación rápida

Cambiar par de comparación

Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsGrok 4.20none Grok 4.1 FastnonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Qwen3 Coder NextnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsGrok 4.20none GPT-4o-mininonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Nemotron 3 SupernoneDisponible gratisvsGLM 4.7 Flashmedium MiniMax M2.5mediumDisponible gratisvsGrok 4.20none