AI BENCHY Compare

Google: Gemini 3.5 Flash vs Inception: Mercury 2

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-03

Métrica	Gemini 3.5 Flash Gemini 3.5 Flash low Lanzamiento: 2026-05-19	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24

Métrica	Gemini 3.5 Flash Gemini 3.5 Flash low Lanzamiento: 2026-05-19	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24
Puntuación	9.3	4.6
Rango	#3	#153
Fiabilidad	10.0	10.0
Consistencia	10.0	9.1
Pruebas correctas
Tasa de aciertos por intento	90.0%	25.0%
Pruebas inestables	0	2
Ejecuciones totales	60	60
Costo por resultado	1.582	0.216
Costo total	$0.285	$0.009
Precio de entrada	$1.500 / 1M	$0.250 / 1M
Precio de salida	$9.000 / 1M	$0.750 / 1M
Total de tokens de entrada	33,935	25,515
Tokens de salida	2,027	3,001
Tokens de razonamiento	23,938	0
Tiempo de respuesta (promedio)	2.98s	614ms
Tiempo de respuesta (máximo)	6.44s	1.27s
Tiempo de respuesta (total)	59.59s	12.28s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.52s	494	209	2,536
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	6.8	10.0	50.0%	0		5.54s	5,115	452	6,839
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.44s	12,873	351	3,050
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.81s	7,548	279	1,164
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	7.7	10.0	66.7%	0		3.39s	633	12	4,538
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.27s	486	119	916
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	9.9	10.0	100.0%	0		1.86s	615	71	1,652
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.35s	558	288	2,150
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.27s	5,457	234	403
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.88s	156	12	690
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0

Comparación rápida

Cambiar par de comparación

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Mercury 2nonevsQwen3.5-9Bmedium Claude Opus 4.7mediumvsGemini 3.5 Flashlow Gemini 3.5 FlashlowvsGPT-5.5medium Claude Opus 4.8mediumvsGemini 3.5 Flashlow Mercury 2nonevsElephant Alphamedium Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.7medium Mercury 2nonevsMiniMax M2.5medium Gemini 3.5 FlashlowvsQwen3.6 Max Previewmedium