AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.5-35B-A3B

الملخص

مقارنة benchmark بين GPT-5.5 و Qwen3.5-35B-A3B: يتقدم GPT-5.5 في متوسط النتيجة بـ 6.3 مقابل 5.9. لدى Qwen3.5-35B-A3B تكلفة benchmark أقل عند $0.012 مقابل $0.231. GPT-5.5 أسرع عند 1.89s مقابل 3.37s، مع معدلات نجاح 54.0% مقابل 42.9%.

النموذج الموصى به: Qwen3.5-35B-A3B - Its score stays close to the best score here (5.9 vs 6.3), while costing about 20.8x less than GPT-5.5.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-10

المقياس	GPT-5.5 GPT-5.5 none الإصدار: 2026-04-24	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none الإصدار: 2026-02-24

المقياس	GPT-5.5 GPT-5.5 none الإصدار: 2026-04-24	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none الإصدار: 2026-02-24
النتيجة	6.3	5.9
الترتيب	#105	#120
الموثوقية	10.0	10.0
الاتساق	8.8	8.9
اختبارات صحيحة
معدل النجاح لكل محاولة	54.0%	42.9%
اختبارات غير مستقرة	3	3
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	2.302	0.230
إجمالي التكلفة	$0.231	$0.012
سعر الإدخال	$5.000 / 1M	$0.140 / 1M
سعر الإخراج	$30.000 / 1M	$1.000 / 1M
إجمالي رموز الإدخال	34,212	48,194
رموز الإخراج	1,971	4,343
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.89s	3.37s
زمن الاستجابة (الحد الأقصى)	5.56s	47.43s
زمن الاستجابة (الإجمالي)	39.64s	70.75s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#105 GPT-5.5

none

التكلفة: $0.090
الوقت: 54.3s
الرموز: 3,063 tok

#120 Qwen3.5-35B-A3B

none

التكلفة: $0.005
الوقت: 28.4s
الرموز: 4,518 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	696	574	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0
Qwen3.5-35B-A3B	5.5	10.0	33.3%	0		1.39s	7,808	571	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	3.0	10.0	0.0%	0		5.56s	11,019	300	0
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	20,739	1,833	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	7,794	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	789	15	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	522	114	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	711	63	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0
Qwen3.5-35B-A3B	3.7	7.4	22.2%	1		1.35s	714	655	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	8,211	264	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		493ms	210	11	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.5nonevsQwen3.5-35B-A3Bmedium Gemma 4 31Bmediumمتاح مجانًاvsGPT-5.5none Nemotron 3 Supermediumمتاح مجانًاvsGPT-5.5none North Mini Codemediumمتاح مجانًاvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash LitelowvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.5none GPT-5.6 LunalowvsQwen3.5-35B-A3Bnone GPT-5.5nonevsQwen3.6 27Bmedium GPT-5.5nonevsStep 3.5 Flashmedium Gemma 4 31Bmediumمتاح مجانًاvsQwen3.5-35B-A3Bnone