AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-9B

الملخص

مقارنة benchmark بين GPT-5.4 Mini و Qwen3.5-9B: يتقدم GPT-5.4 Mini في متوسط النتيجة بـ 5.3 مقابل 3.8. لدى Qwen3.5-9B تكلفة benchmark أقل عند $0.036 مقابل $0.038. GPT-5.4 Mini أسرع عند 1.13s مقابل 82.24s، مع معدلات نجاح 30.2% مقابل 27.0%.

النموذج الموصى به: GPT-5.4 Mini - It has the best score here (5.3), while responding about 72.5x faster than Qwen3.5-9B.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-18

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02
النتيجة	5.3	3.8
الترتيب	#124	#165
الموثوقية	10.0	6.7
الاتساق	8.8	8.0
اختبارات صحيحة
معدل النجاح لكل محاولة	30.2%	27.0%
اختبارات غير مستقرة	3	5
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	0.743	1.187
إجمالي التكلفة	$0.038	$0.036
سعر الإدخال	$0.750 / 1M	$0.100 / 1M
سعر الإخراج	$4.500 / 1M	$0.150 / 1M
إجمالي رموز الإدخال	34,244	17,070
رموز الإخراج	2,541	29,045
رموز الاستدلال	0	209,516
زمن الاستجابة (المتوسط)	1.13s	82.24s
زمن الاستجابة (الحد الأقصى)	2.52s	226.38s
زمن الاستجابة (الإجمالي)	23.82s	1315.88s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#124 GPT-5.4 Mini

none

التكلفة: $0.010
الوقت: 11.7s
الرموز: 2,151 tok

#165 Qwen3.5-9B

medium

التكلفة: $0.001
الوقت: 35.9s
الرموز: 3,030 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	606	654	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.5	10.0	33.3%	0		913ms	7,305	401	0
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	11,019	298	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	7,140	222	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	723	88	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	477	174	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	660	101	0
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.4	10.0	33.3%	0		836ms	642	305	0
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	5,477	255	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		1.33s	195	43	0
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

مقارنة سريعة

تبديل زوج المقارنة

MiniMax M2.7mediumvsGPT-5.4 Mininone Mistral Small 4mediumvsGPT-5.4 Mininone gpt-oss-120bnoneمتاح مجانًاvsQwen3.5-9Bmedium Granite 4.1 8BnonevsQwen3.5-9Bmedium CobuddymediumvsGPT-5.4 Mininone North Mini Codemediumمتاح مجانًاvsGPT-5.4 Mininone MiniMax M2.5mediumvsGPT-5.4 Mininone Qwen3.5-9BmediumvsGrok 4.20none GPT-5.4 MininonevsQwen3 Coder Nextmedium Gemini 3.1 Flash LiteminimalvsGPT-5.4 Mininone Mercury 2nonevsQwen3.5-9Bmedium Ling-2.6-1TnonevsQwen3.5-9Bmedium