AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemini 3.1 Pro Preview

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-26

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19
النتيجة	6.2	9.6
الترتيب	#72	#2
الموثوقية	غير متاح	غير متاح
الاتساق	7.7	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	55.6%	94.4%
اختبارات غير مستقرة	5	0
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.200	3.400
إجمالي التكلفة	$0.016	$0.578
??? ???????	$0.250 / 1M	$2.000 / 1M
??? ???????	$2.000 / 1M	$12.000 / 1M
رموز الإخراج	3,129	1,932
رموز الاستدلال	0	40,542
زمن الاستجابة (المتوسط)	2.53s	15.96s
زمن الاستجابة (الحد الأقصى)	6.70s	40.61s
زمن الاستجابة (الإجمالي)	45.46s	175.52s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		4.61s	380	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

مقارنة سريعة

تبديل زوج المقارنة

Seed-2.0-LitenonevsGPT-5 Nanomedium Seed-2.0-Litenonevsgpt-oss-120bmediumمتاح مجانًا Seed-2.0-LitenonevsMercury 2medium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Seed-2.0-LitenonevsMiniMax M2.5mediumمتاح مجانًا Seed-2.0-LitenonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsMistral Small 4medium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Seed-2.0-LitenonevsNemotron 3 Supermediumمتاح مجانًا Seed-2.0-LitenonevsDeepSeek V4 Prohigh Seed-2.0-LitenonevsGrok 4.20medium Seed-2.0-LitenonevsKimi K2.5medium