AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-122B-A10B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-01

المقياس	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none الإصدار: 2026-02-24

المقياس	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none الإصدار: 2026-02-24
النتيجة	5.9	5.4
الترتيب	#103	#131
الموثوقية	10.0	10.0
الاتساق	7.9	9.5
اختبارات صحيحة
معدل النجاح لكل محاولة	50.0%	33.3%
اختبارات غير مستقرة	5	1
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	0.151	0.380
إجمالي التكلفة	$0.012	$0.019
سعر الإدخال	$0.000 / 1M	$0.260 / 1M
سعر الإخراج	$0.000 / 1M	$2.080 / 1M
رموز الإخراج	17,495	3,374
رموز الاستدلال	46,878	0
زمن الاستجابة (المتوسط)	22.41s	3.38s
زمن الاستجابة (الحد الأقصى)	68.16s	46.00s
زمن الاستجابة (الإجمالي)	291.35s	67.55s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177
Qwen3.5-122B-A10B	4.8	10.0	25.0%	0		1.59s	312	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.9	5.6	33.3%	1		47.24s	847	8,618
Qwen3.5-122B-A10B	4.0	5.5	33.3%	1		2.14s	684	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		46.00s	1,137	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		1.01s	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606
Qwen3.5-122B-A10B	5.3	10.0	33.3%	0		465ms	15	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	66	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799
Qwen3.5-122B-A10B	6.3	10.0	50.0%	0		513ms	69	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,790	2,264
Qwen3.5-122B-A10B	3.8	10.0	0.0%	0		1.00s	575	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	264	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	3,101	3,758
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		295ms	9	0

مقارنة سريعة

تبديل زوج المقارنة

gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-Flashnone gpt-oss-120bmediumمتاح مجانًاvsGLM 5V Turbonone MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone Elephant AlphamediumvsQwen3.5-122B-A10Bnone Seed-2.0-Litenonevsgpt-oss-120bmediumمتاح مجانًا Mistral Small 4mediumvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumمتاح مجانًاvsGLM 5.1none MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone DeepSeek V4 Prononevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone