AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.7 Plus

الملخص

مقارنة benchmark بين GPT-5.2 و Qwen3.7 Plus: يتقدم GPT-5.2 في متوسط النتيجة بـ 8.4 مقابل 7.2. لدى Qwen3.7 Plus تكلفة benchmark أقل عند $0.023 مقابل $0.548. Qwen3.7 Plus أسرع عند 2.85s مقابل 16.88s، مع معدلات نجاح 71.4% مقابل 47.6%.

النموذج الموصى به: Qwen3.7 Plus - It offers the best overall trade-off: a competitive score (7.2), lower cost than GPT-5.2, and balanced response time.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-02

المقياس	GPT-5.2 GPT-5.2 medium الإصدار: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus none الإصدار: 2026-06-03

المقياس	GPT-5.2 GPT-5.2 medium الإصدار: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus none الإصدار: 2026-06-03
النتيجة	8.4	7.2
الترتيب	#22	#62
الموثوقية	10.0	10.0
الاتساق	8.4	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	71.4%	47.6%
اختبارات غير مستقرة	4	0
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	4.209	0.276
إجمالي التكلفة	$0.548	$0.023
سعر الإدخال	$1.750 / 1M	$0.320 / 1M
سعر الإخراج	$14.000 / 1M	$1.280 / 1M
إجمالي رموز الإدخال	33,967	42,510
رموز الإخراج	2,901	6,578
رموز الاستدلال	31,932	0
زمن الاستجابة (المتوسط)	16.88s	2.85s
زمن الاستجابة (الحد الأقصى)	77.80s	29.38s
زمن الاستجابة (الإجمالي)	236.34s	59.86s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2

medium

التكلفة: $0.047
الوقت: 49.2s
الرموز: 3,396 tok

#62 Qwen3.7 Plus

none

التكلفة: $0.019
الوقت: 213.5s
الرموز: 11,960 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912
Qwen3.7 Plus	5.5	10.0	33.3%	0		2.15s	7,911	639	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757
Qwen3.7 Plus	10.0	10.0	100.0%	0		29.38s	14,952	4,505	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0

مقارنة سريعة

تبديل زوج المقارنة

Gemma 4 26B A4Bmediumمتاح مجانًاvsQwen3.7 Plusnone Qwen3.7 PlusnonevsStep 3.7 Flashhigh Qwen3.7 PlusnonevsGLM 5.1medium Laguna XS 2.1mediumمتاح مجانًاvsQwen3.7 Plusnone DeepSeek V4 FlashhighvsGPT-5.2medium Kimi K2.7 CodemediumvsQwen3.7 Plusnone Qwen3.7 PlusnonevsGrok 4.20medium Gemini 3 Flash PreviewlowvsQwen3.7 Plusnone Qwen3.7 PlusnonevsMiMo-V2.5-Promedium Seed-2.0-MinimediumvsQwen3.7 Plusnone DeepSeek V3.2mediumvsQwen3.7 Plusnone Gemini 3.5 FlashminimalvsQwen3.7 Plusnone