AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.5-9B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24	Qwen3.5-9B Qwen3.5-9B none Lanzamiento: 2026-03-02

Métrica	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24	Qwen3.5-9B Qwen3.5-9B none Lanzamiento: 2026-03-02
Rango	#61	#60
Puntaje prom.	3.4	3.4
Consistencia	9.0	10.0
Costo por resultado	0.153	0.111
Costo total	$0.007	$0.005
Pruebas correctas
Tasa de aciertos por intento	31.3%	25.0%
Pruebas inestables	2	0
Ejecuciones totales	48	48
Tokens de salida	1,303	2,939
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	596ms	1.06s
Tiempo de respuesta (máximo)	1.27s	5.91s
Tiempo de respuesta (total)	9.54s	16.95s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	10.0	10.0	0.0%	0		466ms	274	0
Qwen3.5-9B	10.0	9.9	0.0%	0		1.02s	576	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	10.0	10.0	0.0%	0		606ms	131	0
Qwen3.5-9B	10.0	10.0	0.0%	0		5.91s	1,255	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	5.5	5.9	83.3%	1		667ms	180	0
Qwen3.5-9B	9.9	10.0	100.0%	0		847ms	249	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	4.0	7.2	44.4%	1		534ms	46	0
Qwen3.5-9B	10.0	10.0	0.0%	0		464ms	24	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	4.0	10.0	0.0%	0		628ms	159	0
Qwen3.5-9B	3.0	9.9	0.0%	0		552ms	99	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	5.5	10.0	50.0%	0		551ms	82	0
Qwen3.5-9B	5.5	10.0	50.0%	0		514ms	75	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	10.0	10.0	0.0%	0		533ms	234	0
Qwen3.5-9B	10.0	9.9	0.0%	0		683ms	388	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

Comparación rápida

Cambiar par de comparación

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium Mercury 2nonevsQwen3.5-9Bmedium MiniMax M2.5mediumvsQwen3.5-9Bnone Mercury 2nonevsMiniMax M2.5medium Qwen3.5-9BnonevsGrok 4.20 Multi-Agent Betamedium Mercury 2nonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumDisponible gratisvsQwen3.5-9Bnone Mercury 2nonevsgpt-oss-120bmediumDisponible gratis Mercury 2mediumvsQwen3.5-9Bnone GPT-5 NanomediumvsQwen3.5-9Bnone