AI BENCHY Compare

Inception: Mercury 2 vs Owl Alpha

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-03

Métrica	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24	Owl Alpha Owl Alpha medium Lanzamiento: 2026-04-30

Métrica	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24	Owl Alpha Owl Alpha medium Lanzamiento: 2026-04-30
Puntuación	4.6	5.8
Rango	#153	#107
Fiabilidad	10.0	10.0
Consistencia	9.1	9.6
Pruebas correctas
Tasa de aciertos por intento	25.0%	41.7%
Pruebas inestables	2	1
Ejecuciones totales	60	60
Costo por resultado	0.216	0.000
Costo total	$0.009	$0.000
Precio de entrada	$0.250 / 1M	$0.000 / 1M
Precio de salida	$0.750 / 1M	$0.000 / 1M
Total de tokens de entrada	25,515	40,601
Tokens de salida	3,001	2,965
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	614ms	11.64s
Tiempo de respuesta (máximo)	1.27s	58.63s
Tiempo de respuesta (total)	12.28s	232.83s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Owl Alpha	4.8	10.0	25.0%	0		3.97s	1,596	87	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
Owl Alpha	6.6	10.0	50.0%	0		19.08s	3,872	1,754	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Owl Alpha	3.0	10.0	0.0%	0		10.01s	14,259	315	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Owl Alpha	10.0	10.0	100.0%	0		21.64s	8,157	246	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Owl Alpha	5.3	10.0	33.3%	0		8.58s	1,458	28	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Owl Alpha	4.3	10.0	0.0%	0		58.63s	732	98	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Owl Alpha	6.5	10.0	50.0%	0		10.15s	1,161	57	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Owl Alpha	5.3	7.2	44.4%	1		3.40s	1,392	135	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Owl Alpha	10.0	10.0	100.0%	0		8.26s	7,524	228	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Owl Alpha	3.0	10.0	0.0%	0		2.38s	450	17	0

Comparación rápida

Cambiar par de comparación

Owl AlphamediumvsGLM 5.1none DeepSeek V4 PrononevsOwl Alphamedium Owl AlphamediumvsQwen3.5 Plus 2026-04-20none Seed-2.0-LitenonevsOwl Alphamedium Owl AlphamediumvsQwen3.5-35B-A3Bnone Owl AlphamediumvsGLM 5V Turbonone Owl AlphamediumvsQwen3.5-27Bnone Owl AlphamediumvsQwen3.6 27Bnone Owl AlphamediumvsQwen3.5-Flashnone Mercury 2nonevsQwen3 Coder Nextmedium Owl AlphamediumvsMimo V2 PROnone Mercury 2nonevsGLM 4.7 Flashmedium