AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-122B-A10B

الملخص

مقارنة benchmark بين GPT-5.3 Chat و Qwen3.5-122B-A10B: يتقدم Qwen3.5-122B-A10B في متوسط النتيجة بـ 7.7 مقابل 7.5. لدى GPT-5.3 Chat تكلفة benchmark أقل عند $0.433 مقابل $0.588. GPT-5.3 Chat أسرع عند 6.34s مقابل 42.49s، مع معدلات نجاح 66.7% مقابل 73.0%.

النموذج الموصى به: GPT-5.3 Chat - Its score stays close to the best score here (7.5 vs 7.7), while responding about 6.7x faster than Qwen3.5-122B-A10B.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-12

المقياس	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24

المقياس	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24
النتيجة	7.5	7.7
الترتيب	#47	#39
الموثوقية	10.0	10.0
الاتساق	8.1	8.8
اختبارات صحيحة
معدل النجاح لكل محاولة	66.7%	73.0%
اختبارات غير مستقرة	5	3
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	3.605	5.235
إجمالي التكلفة	$0.433	$0.588
سعر الإدخال	$1.750 / 1M	$0.260 / 1M
سعر الإخراج	$14.000 / 1M	$2.080 / 1M
إجمالي رموز الإدخال	34,209	41,832
رموز الإخراج	26,617	26,187
رموز الاستدلال	0	251,028
زمن الاستجابة (المتوسط)	6.34s	42.49s
زمن الاستجابة (الحد الأقصى)	18.33s	168.16s
زمن الاستجابة (الإجمالي)	133.13s	892.30s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#47 GPT-5.3 Chat

none

Cost: $0.008
Time: 8.1s
Tokens: 634 tok

#39 Qwen3.5-122B-A10B

medium

Cost: $0.019
Time: 48.7s
Tokens: 6,034 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	14,947	483	11,337

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone Qwen3.5-122B-A10BmediumvsStep 3.7 Flashlow GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20medium GPT-5.3 ChatnonevsStep 3.7 Flashlow