AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs MiniMax: MiniMax M2.5

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium الإصدار: 2026-02-12

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium الإصدار: 2026-02-12
الترتيب	#45	#49
متوسط الدرجة	4.9	4.7
الاتساق	7.4	5.6
التكلفة لكل نتيجة	0.214	4.981
إجمالي التكلفة	$0.015	$0.250
اختبارات صحيحة
معدل النجاح لكل محاولة	56.3%	60.4%
اختبارات غير مستقرة	5	9
إجمالي مرات التشغيل	48	48
رموز الإخراج	2,743	107,044
رموز الاستدلال	0	206,190
زمن الاستجابة (المتوسط)	2.49s	43.03s
زمن الاستجابة (الحد الأقصى)	6.70s	237.27s
زمن الاستجابة (الإجمالي)	39.91s	387.25s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
MiniMax M2.5	9.3	7.9	88.9%	1		32.42s	286	45,112

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
MiniMax M2.5	10.0	2.1	66.7%	1		60.39s	740	9,713

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
MiniMax M2.5	10.0	1.7	66.7%	2		7.48s	266	3,835

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
MiniMax M2.5	10.0	4.4	22.2%	2		237.27s	105,047	133,487

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
MiniMax M2.5	3.0	2.5	33.3%	1		6.63s	25	1,686

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
MiniMax M2.5	8.0	6.8	83.3%	1		4.64s	252	1,873

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
MiniMax M2.5	4.0	7.2	44.4%	1		11.54s	159	9,547

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937

مقارنة سريعة

تبديل زوج المقارنة

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsHunter Alphanone Seed-2.0-Litenonevsgpt-oss-120bmediumمتاح مجانًا MiniMax M2.5mediumvsGPT-5.4none MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGrok 4.20 Betanone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Seed-2.0-LitenonevsMercury 2medium Trinity Large Previewnoneمتاح مجانًاvsMiniMax M2.5medium Gemini 2.5 FlashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsQwen3.5-Flashnone