AI BENCHY Compare

Google: Gemma 4 26B A4B vs Inception: Mercury 2

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-04

Métrica	Gemma 4 26B A4B Gemma 4 26B A4B none Lanzamiento: 2026-04-03	Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24

Métrica	Gemma 4 26B A4B Gemma 4 26B A4B none Lanzamiento: 2026-04-03	Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24
Puntuación	6.3	6.3
Rango	#53	#52
Consistencia	9.1	8.5
Pruebas correctas
Tasa de aciertos por intento	47.1%	51.0%
Pruebas inestables	2	3
Ejecuciones totales	51	51
Costo por resultado	0.068	0.634
Costo total	$0.005	$0.045
Precio de entrada	$0.130 / 1M	$0.250 / 1M
Precio de salida	$0.400 / 1M	$0.750 / 1M
Tokens de salida	1,335	3,723
Tokens de razonamiento	0	46,120
Tiempo de respuesta (promedio)	6.56s	2.25s
Tiempo de respuesta (máximo)	57.10s	14.63s
Tiempo de respuesta (total)	111.54s	35.99s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	8.3	10.0	75.0%	0		1.28s	230	0
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	3.0	10.0	0.0%	0		30.53s	309	0
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	10.0	10.0	100.0%	0		1.70s	285	0
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	3.6	7.2	22.2%	1		2.49s	27	0
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	4.0	10.0	0.0%	0		3.54s	85	0
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	4.4	6.9	16.7%	1		1.08s	75	0
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	5.7	10.0	33.3%	0		739ms	114	0
Mercury 2	3.9	7.5	22.2%	1		934ms	354	2,758

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Gemma 4 26B A4B	10.0	10.0	100.0%	0		57.10s	210	0
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956

Comparación rápida

Cambiar par de comparación

Gemma 4 26B A4BnonevsGPT-5 Nanomedium Gemma 4 26B A4BnonevsGrok 4.20 Multi Agent Betamedium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsMiMo-V2-Omninone Mercury 2mediumvsQwen3.5-Flashnone Gemma 4 26B A4Bnonevsgpt-oss-120bmediumDisponible gratis Mercury 2mediumvsGLM 5V Turbonone Seed-2.0-LitenonevsMercury 2medium Gemma 4 26B A4BnonevsMiniMax M2.5mediumDisponible gratis Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGLM 5none