AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs MiniMax: MiniMax M2.5

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite none Lanzamiento: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium Lanzamiento: 2026-02-12

Métrica	Seed-2.0-Lite Seed-2.0-Lite none Lanzamiento: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium Lanzamiento: 2026-02-12
Rango	#45	#49
Puntaje prom.	4.9	4.7
Consistencia	7.4	5.6
Costo por resultado	0.214	4.981
Costo total	$0.015	$0.250
Pruebas correctas
Tasa de aciertos por intento	56.3%	60.4%
Pruebas inestables	5	9
Ejecuciones totales	48	48
Tokens de salida	2,743	107,044
Tokens de razonamiento	0	206,190
Tiempo de respuesta (promedio)	2.49s	43.03s
Tiempo de respuesta (máximo)	6.70s	237.27s
Tiempo de respuesta (total)	39.91s	387.25s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntaje prom. vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
MiniMax M2.5	9.3	7.9	88.9%	1		32.42s	286	45,112

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
MiniMax M2.5	10.0	2.1	66.7%	1		60.39s	740	9,713

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
MiniMax M2.5	10.0	1.7	66.7%	2		7.48s	266	3,835

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
MiniMax M2.5	10.0	4.4	22.2%	2		237.27s	105,047	133,487

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
MiniMax M2.5	3.0	2.5	33.3%	1		6.63s	25	1,686

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
MiniMax M2.5	8.0	6.8	83.3%	1		4.64s	252	1,873

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
MiniMax M2.5	4.0	7.2	44.4%	1		11.54s	159	9,547

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937

Comparación rápida

Cambiar par de comparación

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsHunter Alphanone Seed-2.0-Litenonevsgpt-oss-120bmediumDisponible gratis MiniMax M2.5mediumvsGPT-5.4none MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGrok 4.20 Betanone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Seed-2.0-LitenonevsMercury 2medium Trinity Large PreviewnoneDisponible gratisvsMiniMax M2.5medium Gemini 2.5 FlashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsQwen3.5-Flashnone