قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Qwen: Qwen3.5-27B

اسم النموذج:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في : 2026-02-27 15:16

الملخص

المقياس	ByteDance Seed: Seed-2.0-Mini medium الإصدار: 2026-02-26	Qwen: Qwen3.5-27B medium الإصدار: تاريخ الإصدار غير معروف
الترتيب	#18	#5
النتيجة	6.13	8.55
الاتساق	8.91	9.55
التكلفة لكل نتيجة	0.177	2.950
إجمالي التكلفة	$0.013	$0.325
اختبارات صحيحة
الاختبارات الخاطئة	7	3
معدل النجاح لكل محاولة	59.5%	83.3%
اختبارات غير مستقرة	2	1
رموز الإخراج	1,353	1,091
رموز الاستدلال	24,362	131,807

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	7.00	9.99	66.7%	0		354	9,352
Qwen: Qwen3.5-27B	10.00	10.00	100.0%	0		102	8,956

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	9.88	10.00	100.0%	0		246	2,743
Qwen: Qwen3.5-27B	9.88	10.00	100.0%	0		270	16,150

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	1.00	10.00	0.0%	0		0	0
Qwen: Qwen3.5-27B	4.00	10.00	33.3%	0		43	52,368

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	8.00	9.99	50.0%	0		69	2,050
Qwen: Qwen3.5-27B	9.00	6.88	83.3%	1		97	11,638

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	5.33	4.91	77.8%	2		462	4,982
Qwen: Qwen3.5-27B	10.00	10.00	100.0%	0		231	41,372

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	10.00	10.00	100.0%	0		222	5,235
Qwen: Qwen3.5-27B	10.00	10.00	100.0%	0		348	1,323

تبديل زوج المقارنة

قارن ByteDance Seed: Seed-2.0-Mini مع...

قارن Qwen: Qwen3.5-27B مع...