AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

الملخص

مقارنة benchmark بين gpt-oss-120b و Qwen3.5-9B: يتقدم gpt-oss-120b في متوسط النتيجة بـ 6.1 مقابل 4.6. لدى Qwen3.5-9B تكلفة benchmark أقل عند $0.006 مقابل $0.013. Qwen3.5-9B أسرع عند 1.89s مقابل 22.28s، مع معدلات نجاح 52.4% مقابل 20.6%.

النموذج الموصى به: Qwen3.5-9B - It offers the best overall trade-off: a competitive score (4.6), lower cost than gpt-oss-120b, and balanced response time.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-10

المقياس	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا	Qwen3.5-9B Qwen3.5-9B none الإصدار: 2026-03-02

المقياس	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا	Qwen3.5-9B Qwen3.5-9B none الإصدار: 2026-03-02
النتيجة	6.1	4.6
الترتيب	#100	#155
الموثوقية	10.0	10.0
الاتساق	8.0	9.7
اختبارات صحيحة
معدل النجاح لكل محاولة	52.4%	20.6%
اختبارات غير مستقرة	5	1
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	0.141	0.123
إجمالي التكلفة	$0.013	$0.006
سعر الإدخال	$0.039 / 1M	$0.100 / 1M
سعر الإخراج	$0.180 / 1M	$0.150 / 1M
إجمالي رموز الإدخال	39,084	48,041
رموز الإخراج	20,013	3,952
رموز الاستدلال	50,233	0
زمن الاستجابة (المتوسط)	22.28s	1.89s
زمن الاستجابة (الحد الأقصى)	68.16s	6.03s
زمن الاستجابة (الإجمالي)	311.96s	39.68s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#100 gpt-oss-120b

medium

Cost: $0.001
Time: 26.7s
Tokens: 555 tok

#155 Qwen3.5-9B

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	696	582	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973
Qwen3.5-9B	3.9	7.8	11.1%	1		5.60s	7,913	1,042	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	20,397	1,255	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	7,788	249	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	789	24	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	522	99	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	711	75	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264
Qwen3.5-9B	3.2	10.0	0.0%	0		621ms	714	347	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	8,301	273	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	210	6	0

مقارنة سريعة

تبديل زوج المقارنة