AI BENCHY Compare

Google: Gemma 4 31B vs Grok 4.20 Multi Agent Beta

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-02

Métrica	Gemma 4 31B Gemma 4 31B none Lanzamiento: 2026-04-02	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lanzamiento: 2026-03-12

Métrica	Gemma 4 31B Gemma 4 31B none Lanzamiento: 2026-04-02	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Lanzamiento: 2026-03-12
Puntuación	6.7	6.2
Rango	#47	#53
Consistencia	10.0	7.2
Pruebas correctas
Tasa de aciertos por intento	52.9%	54.9%
Pruebas inestables	0	6
Ejecuciones totales	51	51
Costo por resultado	0.023	82.962
Costo total	$0.002	$4.978
Precio de entrada	$0.140 / 1M	$0.000 / 1M
Precio de salida	$0.400 / 1M	$0.000 / 1M
Tokens de salida	660	298,948
Tokens de razonamiento	0	296,529
Tiempo de respuesta (promedio)	2.55s	8.64s
Tiempo de respuesta (máximo)	4.68s	35.28s
Tiempo de respuesta (total)	38.20s	129.64s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	45	0
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	285	0
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	27	0
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	117	0
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	78	0
Grok 4.20 Multi Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	5.5	10.0	33.3%	0		2.95s	108	0
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Comparación rápida

Cambiar par de comparación

Gemma 4 31BnonevsGPT-5 Minimedium DeepSeek V3.2nonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi Agent Betamedium Gemma 4 31BnonevsNemotron 3 SupermediumDisponible gratis Grok 4.20 Multi Agent BetamediumvsMiMo-V2-Omninone Gemma 4 31BnonevsGrok 4.1 Fastmedium Grok 4.20 Multi Agent BetamediumvsGLM 5V Turbonone Gemma 4 31BnonevsHunter Alphamedium Seed-2.0-LitenonevsGrok 4.20 Multi Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi Agent Betamedium