Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.1 Fast

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-05

Métrica	Inception: Mercury 2 none Lanzamiento: 2026-02-24	xAI: Grok 4.1 Fast none Lanzamiento: 2025-11-19
Rango	#50	#53
Puntaje prom.	34	29
Consistencia	89	89
Costo por resultado	0.147	0.239
Costo total	$0.006	$0.008
Pruebas correctas
Tasa de aciertos por intento	33.3%	26.7%
Pruebas inestables	2	2
Tokens de salida	1,144	1,036
Tokens de razonamiento	0	0

Mejores modelos por puntuación

Puntuación vs costo total

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	100	100	0.0%	0		274	0
xAI: Grok 4.1 Fast	13	100	0.0%	0		229	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	100	100	0.0%	0		131	0
xAI: Grok 4.1 Fast	100	100	0.0%	0		105	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	55	59	83.3%	1		180	0
xAI: Grok 4.1 Fast	99	100	100.0%	0		180	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	40	72	44.4%	1		46	0
xAI: Grok 4.1 Fast	40	72	55.6%	1		15	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	55	100	50.0%	0		82	0
xAI: Grok 4.1 Fast	100	100	0.0%	0		56	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	100	100	0.0%	0		234	0
xAI: Grok 4.1 Fast	13	100	0.0%	0		243	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tokens de salida	Tokens de razonamiento
Inception: Mercury 2	100	100	100.0%	0		197	0
xAI: Grok 4.1 Fast	100	16	33.3%	1		208	0

Comparación rápida

Cambiar par de comparación

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Mercury 2nonevsMiniMax M2.5medium Mercury 2nonevsgpt-oss-120bmediumDisponible gratis MiniMax M2.5mediumvsGrok 4.1 Fastnone Mercury 2nonevsGPT-5 Nanomedium gpt-oss-120bmediumDisponible gratisvsGrok 4.1 Fastnone Mercury 2nonevsQwen3.5-35B-A3Bmedium Mercury 2mediumvsGrok 4.1 Fastnone Mercury 2nonevsGPT-5 Minimedium