AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 2.5 Flash

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-16

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	Gemini 2.5 Flash Gemini 2.5 Flash medium الإصدار: 2025-06-17

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	Gemini 2.5 Flash Gemini 2.5 Flash medium الإصدار: 2025-06-17
النتيجة	6.2	8.2
الترتيب	#60	#15
الاتساق	7.7	9.5
اختبارات صحيحة
معدل النجاح لكل محاولة	55.6%	75.9%
اختبارات غير مستقرة	5	1
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.200	2.454
إجمالي التكلفة	$0.016	$0.319
??? ???????	$0.250 / 1M	$0.300 / 1M
??? ???????	$2.000 / 1M	$2.500 / 1M
رموز الإخراج	3,129	1,898
رموز الاستدلال	0	122,273
زمن الاستجابة (المتوسط)	2.53s	12.12s
زمن الاستجابة (الحد الأقصى)	6.70s	95.48s
زمن الاستجابة (الإجمالي)	45.46s	218.12s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Gemini 2.5 Flash	8.4	10.0	75.0%	0		6.30s	255	10,233

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		4.61s	380	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		16.23s	522	10,350

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140

مقارنة سريعة

تبديل زوج المقارنة

Seed-2.0-LitenonevsGPT-5 Nanomedium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Seed-2.0-Litenonevsgpt-oss-120bmediumمتاح مجانًا Seed-2.0-LitenonevsMercury 2medium Seed-2.0-LitenonevsMiniMax M2.5mediumمتاح مجانًا Seed-2.0-LitenonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsMistral Small 4medium Seed-2.0-LitenonevsNemotron 3 Supermediumمتاح مجانًا Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Seed-2.0-LitenonevsGrok 4.20medium Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Seed-2.0-LitenonevsKimi K2.5medium