AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-27B

الملخص

مقارنة benchmark بين GPT-5.3 Chat و Qwen3.5-27B: يتقدم Qwen3.5-27B في متوسط النتيجة بـ 7.9 مقابل 7.5. لدى GPT-5.3 Chat تكلفة benchmark أقل عند $0.433 مقابل $0.536. GPT-5.3 Chat أسرع عند 6.34s مقابل 68.39s، مع معدلات نجاح 66.7% مقابل 73.0%.

النموذج الموصى به: GPT-5.3 Chat - Its score stays close to the best score here (7.5 vs 7.9), while responding about 10.8x faster than Qwen3.5-27B.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-17

المقياس	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	Qwen3.5-27B Qwen3.5-27B medium الإصدار: 2026-02-24

المقياس	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	Qwen3.5-27B Qwen3.5-27B medium الإصدار: 2026-02-24
النتيجة	7.5	7.9
الترتيب	#45	#29
الموثوقية	10.0	10.0
الاتساق	8.1	8.5
اختبارات صحيحة
معدل النجاح لكل محاولة	66.7%	73.0%
اختبارات غير مستقرة	5	4
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	3.605	4.901
إجمالي التكلفة	$0.433	$0.536
سعر الإدخال	$1.750 / 1M	$0.195 / 1M
سعر الإخراج	$14.000 / 1M	$1.560 / 1M
إجمالي رموز الإدخال	34,209	42,164
رموز الإخراج	26,617	8,534
رموز الاستدلال	0	329,289
زمن الاستجابة (المتوسط)	6.34s	68.39s
زمن الاستجابة (الحد الأقصى)	18.33s	234.36s
زمن الاستجابة (الإجمالي)	133.13s	1436.24s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#45 GPT-5.3 Chat

none

Cost: $0.008
Time: 8.1s
Tokens: 634 tok

#29 Qwen3.5-27B

medium

Cost: $0.008
Time: 62.0s
Tokens: 3,099 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	14,946	483	9,991

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20medium GPT-5.3 ChatnonevsStep 3.7 Flashlow