AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.5-35B-A3B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-14

المقياس	GPT-5.2 GPT-5.2 medium الإصدار: 2025-12-11	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium الإصدار: 2026-02-24

المقياس	GPT-5.2 GPT-5.2 medium الإصدار: 2025-12-11	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium الإصدار: 2026-02-24
النتيجة	7.5	7.4
الترتيب	#37	#40
الاتساق	8.1	6.7
اختبارات صحيحة
معدل النجاح لكل محاولة	72.2%	79.6%
اختبارات غير مستقرة	4	7
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	3.193	3.976
إجمالي التكلفة	$0.352	$0.398
??? ???????	$1.750 / 1M	$0.163 / 1M
??? ???????	$14.000 / 1M	$1.300 / 1M
رموز الإخراج	2,705	10,137
رموز الاستدلال	18,977	208,761
زمن الاستجابة (المتوسط)	14.04s	44.51s
زمن الاستجابة (الحد الأقصى)	77.80s	106.00s
زمن الاستجابة (الإجمالي)	154.41s	801.21s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		15.12s	467	2,166
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		79.09s	4,273	33,078

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	7.7	7.3	77.8%	1		5.47s	609	938
Qwen3.5-35B-A3B	6.4	4.4	77.8%	2		31.58s	3,589	32,206

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

مقارنة سريعة

تبديل زوج المقارنة

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsGPT-5.2medium GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-35B-A3Bmedium GPT-5.2 ChatnonevsQwen3.5-35B-A3Bmedium Gemma 4 31Bnoneمتاح مجانًاvsQwen3.5-35B-A3Bmedium Gemma 4 31Bnoneمتاح مجانًاvsGPT-5.2medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Gemini 3 Flash PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-35B-A3Bmedium Gemini 3 Flash PreviewnonevsQwen3.5-35B-A3Bmedium