Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-05

Métrica	Inception: Mercury 2 medium Lanzamiento: 2026-02-24	OpenAI: GPT-5.4 none Lanzamiento: 2026-03-05
Rango	#35	#44
Puntaje prom.	5.4	4.6
Pruebas correctas
Consistencia	8.3	8.9
Costo por resultado	0.622	1.496
Costo total	$0.044	$0.090
Tasa de aciertos por intento	57.8%	44.4%
Pruebas inestables	3	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Tokens de salida	3,571	1,635
Tokens de razonamiento	45,379	0
Tiempo de respuesta (promedio)	2.47s	1.46s
Tiempo de respuesta (máximo)	14.63s	2.89s
Tiempo de respuesta (total)	34.56s	21.86s

Mejores modelos por puntuación

Tiempo de respuesta (promedio)

Puntuación vs costo total

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	7.3	9.8	66.7%	0		1.30s	2,531	2,410
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	5.5	5.9	83.3%	1		1.11s	183	1,656
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	10.0	7.2	11.1%	1		6.48s	41	30,754
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	1.7	7.5	22.2%	1		934ms	354	2,758
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparación rápida

Cambiar par de comparación

Gemini 2.5 FlashnonevsMercury 2medium MiniMax M2.5mediumvsGPT-5.4none DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGLM 5none Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Trinity Large Preview (free)noneDisponible gratisvsMercury 2medium GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium