AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

الملخص

مقارنة benchmark بين gpt-oss-120b و Qwen3.5-9B (medium): يتقدم gpt-oss-120b في متوسط النتيجة بـ 4.0 مقابل 3.8. لدى gpt-oss-120b تكلفة benchmark أقل عند $0.010 مقابل $0.036. gpt-oss-120b أسرع عند 21.61s مقابل 82.24s، مع معدلات نجاح 34.9% مقابل 27.0%.

النموذج الموصى به: gpt-oss-120b - It has the best score here (4.0), while costing about 3.7x less than Qwen3.5-9B (medium).

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-10

المقياس	gpt-oss-120b gpt-oss-120b none الإصدار: 2025-08-05 متاح مجانًا	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02

المقياس	gpt-oss-120b gpt-oss-120b none الإصدار: 2025-08-05 متاح مجانًا	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02
النتيجة	4.0	3.8
الترتيب	#184	#185
الموثوقية	10.0	6.7
الاتساق	8.2	8.0
اختبارات صحيحة
معدل النجاح لكل محاولة	34.9%	27.0%
اختبارات غير مستقرة	2	5
إجمالي مرات التشغيل	57	63
التكلفة لكل نتيجة	0.168	1.187
إجمالي التكلفة	$0.010	$0.036
سعر الإدخال	$0.036 / 1M	$0.100 / 1M
سعر الإخراج	$0.180 / 1M	$0.150 / 1M
إجمالي رموز الإدخال	9,081	17,070
رموز الإخراج	51,664	29,045
رموز الاستدلال	0	209,516
زمن الاستجابة (المتوسط)	21.61s	82.24s
زمن الاستجابة (الحد الأقصى)	113.71s	226.38s
زمن الاستجابة (الإجمالي)	345.79s	1315.88s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#184 gpt-oss-120b

none

لم يتم إنشاء نتيجة عرض لهذا النموذج بعد.

التكلفة: $0.000
الوقت: -
الرموز: 0 tok

#185 Qwen3.5-9B

medium

التكلفة: $0.001
الوقت: 35.9s
الرموز: 3,030 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	1.5	4.0	22.2%	1		9.57s	901	3,232	0
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

مقارنة سريعة

تبديل زوج المقارنة

Granite 4.1 8BnonevsQwen3.5-9Bmedium gpt-oss-120bnoneمتاح مجانًاvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.20none gpt-oss-120bnoneمتاح مجانًاvsQwen3 Coder Nextmedium MiniMax M2.5mediumvsgpt-oss-120bnoneمتاح مجانًا Mercury 2nonevsQwen3.5-9Bmedium Ling-2.6-1TnonevsQwen3.5-9Bmedium Cobuddymediumvsgpt-oss-120bnoneمتاح مجانًا GPT-5.4 NanononevsQwen3.5-9Bmedium Ring-2.6-1TnonevsQwen3.5-9Bmedium Ling-2.6-flashnonevsQwen3.5-9Bmedium Nemotron 3 Supernoneمتاح مجانًاvsQwen3.5-9Bmedium