AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 3 Flash Preview

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Seed-2.0-Lite Seed-2.0-Lite medium الإصدار: 2026-02-14	Gemini 3 Flash Preview Gemini 3 Flash Preview low الإصدار: 2025-12-17

المقياس	Seed-2.0-Lite Seed-2.0-Lite medium الإصدار: 2026-02-14	Gemini 3 Flash Preview Gemini 3 Flash Preview low الإصدار: 2025-12-17
الترتيب	#3	#6
متوسط الدرجة	8.5	8.2
الاتساق	8.7	9.5
التكلفة لكل نتيجة	0.870	0.607
إجمالي التكلفة	$0.105	$0.079
اختبارات صحيحة
معدل النجاح لكل محاولة	87.5%	83.3%
اختبارات غير مستقرة	3	1
إجمالي مرات التشغيل	48	48
رموز الإخراج	2,815	1,586
رموز الاستدلال	44,618	19,950
زمن الاستجابة (المتوسط)	29.39s	6.11s
زمن الاستجابة (الحد الأقصى)	168.71s	14.72s
زمن الاستجابة (الإجمالي)	470.29s	97.74s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.50s	275	2,476

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Gemini 3 Flash Preview	10.0	10.0	0.0%	0		3.27s	326	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.9	10.0	100.0%	0		9.07s	246	1,742
Gemini 3 Flash Preview	9.9	10.0	100.0%	0		9.40s	279	3,656

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	4.0	7.2	55.6%	1		88.74s	15	23,897
Gemini 3 Flash Preview	4.0	7.2	44.4%	1		8.05s	12	6,410

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	7.0	3.6	66.7%	1		18.25s	304	1,620
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.68s	120	981

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Gemini 3 Flash Preview	9.5	10.0	100.0%	0		7.02s	71	2,752

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.3	7.9	88.9%	1		11.03s	461	3,532
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		6.11s	269	3,260

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.99s	234	415

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Gemini 3 Flash PreviewlowvsQwen3.5 Plus 2026-02-15medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsStep 3.5 Flashmediumمتاح مجانًا Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3 Flash PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsMiMo-V2-Flashmedium