AI BENCHY Compare

Google: Gemini 2.5 Flash vs Inception: Mercury 2

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-03

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash none Lanzamiento: 2025-06-17	Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24

Métrica	Gemini 2.5 Flash Gemini 2.5 Flash none Lanzamiento: 2025-06-17	Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24
Puntuación	6.4	6.5
Rango	#94	#89
Fiabilidad	10.0	10.0
Consistencia	9.6	8.8
Pruebas correctas
Tasa de aciertos por intento	48.3%	51.7%
Pruebas inestables	1	3
Ejecuciones totales	60	60
Costo por resultado	0.159	0.611
Costo total	$0.015	$0.055
Precio de entrada	$0.300 / 1M	$0.250 / 1M
Precio de salida	$2.500 / 1M	$0.750 / 1M
Total de tokens de entrada	32,923	32,570
Tokens de salida	1,764	4,022
Tokens de razonamiento	0	58,405
Tiempo de respuesta (promedio)	889ms	2.27s
Tiempo de respuesta (máximo)	4.39s	14.63s
Tiempo de respuesta (total)	17.79s	43.20s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	492	102	0
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	6.8	10.0	50.0%	0		810ms	5,119	477	0
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	12,519	366	0
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	7,257	279	0
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	633	12	0
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	486	78	0
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	615	72	0
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	558	132	0
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	5,088	234	0
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	156	12	0
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

Comparación rápida

Cambiar par de comparación

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsRing-2.6-1Tnone Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31BnoneDisponible gratisvsMercury 2medium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsGPT-5 Nanomedium DeepSeek V4 ProhighvsGemini 2.5 Flashnone Gemini 2.5 FlashnonevsKimi K2.5medium