AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4 Nano

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-04-29

Métrica	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24	GPT-5.4 Nano GPT-5.4 Nano none Lanzamiento: 2026-03-17

Métrica	Mercury 2 Mercury 2 none Lanzamiento: 2026-02-24	GPT-5.4 Nano GPT-5.4 Nano none Lanzamiento: 2026-03-17
Puntuación	4.8	4.5
Rango	#121	#128
Fiabilidad	N/D	N/D
Consistencia	9.0	7.1
Pruebas correctas
Tasa de aciertos por intento	27.8%	31.5%
Pruebas inestables	2	7
Ejecuciones totales	54	54
Costo por resultado	0.165	0.448
Costo total	$0.007	$0.009
Precio de entrada	$0.250 / 1M	$0.200 / 1M
Precio de salida	$0.750 / 1M	$1.250 / 1M
Tokens de salida	1,625	2,762
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	613ms	1.40s
Tiempo de respuesta (máximo)	1.27s	3.84s
Tiempo de respuesta (total)	11.04s	25.14s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	3.0	10.0	0.0%	0		483ms	286	0
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	3.6	8.9	0.0%	0		969ms	310	0
GPT-5.4 Nano	7.1	3.7	66.7%	1		1.43s	577	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	3.0	10.0	0.0%	0		606ms	131	0
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	7.3	5.9	83.3%	1		667ms	180	0
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	5.3	7.2	44.4%	1		534ms	46	0
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	4.8	10.0	0.0%	0		628ms	159	0
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	6.5	10.0	50.0%	0		551ms	82	0
GPT-5.4 Nano	5.0	6.8	33.3%	1		787ms	84	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	3.1	10.0	0.0%	0		533ms	234	0
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0

Comparación rápida

Cambiar par de comparación

Mercury 2nonevsQwen3 Coder Nextmedium GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Mercury 2nonevsQwen3.5-9Bmedium Mercury 2nonevsNemotron 3 Nano Omni 30b A3b ReasoningmediumDisponible gratis Mercury 2nonevsElephant Alphamedium Mercury 2nonevsMiniMax M2.7medium Nemotron 3 Nano Omni 30b A3b ReasoningmediumDisponible gratisvsGPT-5.4 Nanonone GPT-5.4 NanononevsElephant Alphamedium MiniMax M2.7mediumvsGPT-5.4 Nanonone