AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs OpenAI: gpt-oss-120b

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا
الترتيب	#45	#43
متوسط الدرجة	4.9	5.1
الاتساق	7.4	7.4
التكلفة لكل نتيجة	0.214	0.135
إجمالي التكلفة	$0.015	$0.010
اختبارات صحيحة
معدل النجاح لكل محاولة	56.3%	54.2%
اختبارات غير مستقرة	5	5
إجمالي مرات التشغيل	48	48
رموز الإخراج	2,743	13,210
رموز الاستدلال	0	34,230
زمن الاستجابة (المتوسط)	2.49s	16.65s
زمن الاستجابة (الحد الأقصى)	6.70s	50.92s
زمن الاستجابة (الإجمالي)	39.91s	149.88s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083

مقارنة سريعة

تبديل زوج المقارنة

Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-122B-A10Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-Flashnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone Seed-2.0-LitenonevsMiniMax M2.5medium Seed-2.0-LitenonevsMercury 2medium gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsHunter Alphanone Seed-2.0-LitenonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsGPT-5 Nanomedium