AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.6 Max Preview

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-27

المقياس	Seed-2.0-Lite Seed-2.0-Lite medium الإصدار: 2026-02-14	Qwen3.6 Max Preview Qwen3.6 Max Preview none الإصدار: 2026-04-20

المقياس	Seed-2.0-Lite Seed-2.0-Lite medium الإصدار: 2026-02-14	Qwen3.6 Max Preview Qwen3.6 Max Preview none الإصدار: 2026-04-20
النتيجة	8.6	7.3
الترتيب	#10	#56
الموثوقية	غير متاح	10.0
الاتساق	8.8	8.7
اختبارات صحيحة
معدل النجاح لكل محاولة	83.3%	66.7%
اختبارات غير مستقرة	3	3
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.926	0.827
إجمالي التكلفة	$0.121	$0.083
??? ???????	$0.250 / 1M	$1.300 / 1M
??? ???????	$2.000 / 1M	$7.800 / 1M
رموز الإخراج	3,257	4,732
رموز الاستدلال	52,042	0
زمن الاستجابة (المتوسط)	30.37s	3.38s
زمن الاستجابة (الحد الأقصى)	168.71s	20.51s
زمن الاستجابة (الإجمالي)	546.72s	60.83s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		74.49s	436	7,319
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Qwen3.6 Max Preview	8.4	6.9	83.3%	1		1.45s	69	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Seed-2.0-LitemediumvsHY3 Previewhighمتاح مجانًا Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium GPT-5.2mediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsQwen3.6 Max Previewnone GPT-5 MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Qwen3.6 Max PreviewnonevsGrok 4.20medium