AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5-35B-A3B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium الإصدار: 2026-02-24

المقياس	Seed-2.0-Lite Seed-2.0-Lite none الإصدار: 2026-02-14	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium الإصدار: 2026-02-24
الترتيب	#45	#39
متوسط الدرجة	4.9	5.5
الاتساق	7.4	6.3
التكلفة لكل نتيجة	0.214	4.251
إجمالي التكلفة	$0.015	$0.341
اختبارات صحيحة
معدل النجاح لكل محاولة	56.3%	77.1%
اختبارات غير مستقرة	5	7
إجمالي مرات التشغيل	48	48
رموز الإخراج	2,743	5,495
رموز الاستدلال	0	169,266
زمن الاستجابة (المتوسط)	2.49s	43.93s
زمن الاستجابة (الحد الأقصى)	6.70s	106.00s
زمن الاستجابة (الإجمالي)	39.91s	702.85s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.75s	429	36,235

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
Qwen3.5-35B-A3B	10.0	1.6	66.7%	1		75.34s	775	12,485

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
Qwen3.5-35B-A3B	5.5	5.9	83.3%	1		59.33s	235	19,493

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
Qwen3.5-35B-A3B	10.0	4.4	44.5%	2		88.34s	41	46,368

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Qwen3.5-35B-A3B	10.0	1.6	33.3%	1		30.30s	20	3,753

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
Qwen3.5-35B-A3B	4.0	4.4	77.8%	2		31.58s	3,589	32,206

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

مقارنة سريعة

تبديل زوج المقارنة

DeepSeek V3.2nonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-Litenonevsgpt-oss-120bmediumمتاح مجانًا Seed-2.0-LitenonevsMiniMax M2.5medium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsMercury 2medium Qwen3.5-35B-A3BmediumvsGLM 5none Seed-2.0-LitenonevsGPT-5 Nanomedium Seed-2.0-LitenonevsNemotron 3 Super 120b A12bmediumمتاح مجانًا Hunter AlphanonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsHunter Alphamedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium