ByteDance Seed: Seed-2.0-Mini vs Inception: Mercury 2

La puntuación media está prácticamente empatada en 7.0 vs 7.0. Mercury 2 (medium) tiene menor coste de benchmark con $0.093 vs $0.101. Mercury 2 (medium) es más rápido con 2.72s vs 92.53s, con tasas de acierto de 57.6% vs 51.5%.

Modelo recomendadoMercury 2 (medium)Tiene la mejor puntuación aquí (7.0) y responde aproximadamente 34.0x más rápido que Seed-2.0-Mini (medium).

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-18

Métrica	Seed-2.0-Mini Seed-2.0-Mini medium Lanzamiento: 2026-02-14	Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24

Métrica	Seed-2.0-Mini Seed-2.0-Mini medium Lanzamiento: 2026-02-14	Mercury 2 Mercury 2 medium Lanzamiento: 2026-02-24
Puntuación	7.0	7.0
Rango	#79	#77
Fiabilidad	8.5	10.0
Consistencia	8.9	8.8
Pruebas correctas
Tasa de aciertos por intento	57.6%	51.5%
Pruebas inestables	3	3
Ejecuciones totales	66	66
Costo por resultado	0.917	0.928
Costo total	$0.101	$0.093
Precio de entrada	$0.100 / 1M	$0.250 / 1M
Precio de salida	$0.400 / 1M	$0.750 / 1M
Total de tokens de entrada	125,467	109,572
Tokens de salida	10,778	10,313
Tokens de razonamiento	209,856	76,806
Tiempo de respuesta (promedio)	92.53s	2.72s
Tiempo de respuesta (máximo)	301.78s	14.63s
Tiempo de respuesta (total)	1665.50s	57.12s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#79 Seed-2.0-Mini

medium

Coste: $0.002
Tiempo: 161.7s
Tokens: 4,379 tok

#77 Mercury 2

medium

Coste: $0.002
Tiempo: 2.1s
Tokens: 1,702 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Categoría:

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	6.6	10.0	50.0%	0		74.75s	791	360	9,520
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	5.5	9.8	33.3%	0		220.48s	3,823	464	34,964
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	7.3	5.8	83.3%	1		282.30s	100,096	8,627	143,688
Mercury 2	6.7	9.1	50.0%	0		7.84s	87,365	6,533	20,474

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		24.27s	8,568	246	2,743
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	3.0	10.0	0.0%	0		0ms	0	0	0
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	5.1	3.4	33.3%	1		36.65s	585	213	4,210
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	840	69	2,050
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	8.2	7.2	88.9%	1		31.79s	903	527	5,667
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	9,585	222	5,235
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Seed-2.0-Mini	3.0	10.0	0.0%	0		56.76s	276	50	1,779
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

Comparación rápida

Cambiar par de comparación

Gemini 3.5 FlashnonevsMercury 2medium Seed-2.0-MinimediumvsGemini 3.5 Flashnone Seed-2.0-MinimediumvsDeepSeek V4 Pronone Seed-2.0-MinimediumvsGPT-5.6 Solnone DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsGPT-5.6 Solnone Seed-2.0-MinimediumvsStep 3.7 Flashhigh Seed-2.0-MinimediumvsGPT-5.5none Mercury 2mediumvsStep 3.7 Flashhigh Mercury 2mediumvsGPT-5.5none Seed-2.0-MinimediumvsGemini 3.5 Flashminimal Mercury 2mediumvsQwen3.7 Plusnone