AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs OpenAI: GPT-5.4

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-15

المقياس	Seed-2.0-Lite Seed-2.0-Lite medium الإصدار: 2026-02-14	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05

المقياس	Seed-2.0-Lite Seed-2.0-Lite medium الإصدار: 2026-02-14	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05
الترتيب	#3	#9
النتيجة	8.8	8.5
الاتساق	8.7	8.5
التكلفة لكل نتيجة	0.870	6.601
إجمالي التكلفة	$0.105	$0.793
اختبارات صحيحة
معدل النجاح لكل محاولة	87.5%	83.3%
اختبارات غير مستقرة	3	3
إجمالي مرات التشغيل	48	48
رموز الإخراج	2,815	1,756
رموز الاستدلال	44,618	46,642
زمن الاستجابة (المتوسط)	29.39s	20.05s
زمن الاستجابة (الحد الأقصى)	168.71s	100.41s
زمن الاستجابة (الإجمالي)	470.29s	320.87s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

مقارنة سريعة

تبديل زوج المقارنة

Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6nonevsGPT-5.4medium Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.3 Chatnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6nonevsSeed-2.0-Litemedium