AI BENCHY Compare

Grok 4.20 Beta vs xAI: Grok 4.20

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-02

Métrica	Grok 4.20 Beta Grok 4.20 Beta none Lanzamiento: 2026-03-12	Grok 4.20 Grok 4.20 none Lanzamiento: 2026-03-31

Métrica	Grok 4.20 Beta Grok 4.20 Beta none Lanzamiento: 2026-03-12	Grok 4.20 Grok 4.20 none Lanzamiento: 2026-03-31
Puntuación	5.3	5.4
Rango	#70	#69
Consistencia	9.1	9.5
Pruebas correctas
Tasa de aciertos por intento	31.4%	31.4%
Pruebas inestables	2	1
Ejecuciones totales	51	51
Costo por resultado	2.240	1.809
Costo total	$0.090	$0.091
Precio de entrada	$0.000 / 1M	$2.000 / 1M
Precio de salida	$0.000 / 1M	$6.000 / 1M
Tokens de salida	1,517	1,655
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.19s	1.11s
Tiempo de respuesta (máximo)	6.48s	6.04s
Tiempo de respuesta (total)	20.22s	18.80s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Comparación rápida

Cambiar par de comparación

Mistral Small 4mediumvsGrok 4.20none Mistral Small 4mediumvsGrok 4.20 Betanone MiniMax M2.7mediumvsGrok 4.20 Betanone MiniMax M2.7mediumvsGrok 4.20none MiniMax M2.5mediumDisponible gratisvsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20 Betanone MiniMax M2.5mediumDisponible gratisvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20none gpt-oss-120bmediumDisponible gratisvsGrok 4.20none Grok 4.20 BetanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumDisponible gratisvsGrok 4.20 Betanone Grok 4.20nonevsGLM 4.7 Flashmedium