AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs Qwen: Qwen3.7 Max

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-01

المقياس	GPT-5.2 Chat GPT-5.2 Chat none الإصدار: 2025-12-11	Qwen3.7 Max Qwen3.7 Max none الإصدار: 2026-05-22

المقياس	GPT-5.2 Chat GPT-5.2 Chat none الإصدار: 2025-12-11	Qwen3.7 Max Qwen3.7 Max none الإصدار: 2026-05-22
النتيجة	7.9	7.9
الترتيب	#32	#28
الموثوقية	10.0	10.0
الاتساق	8.9	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	73.3%	70.0%
اختبارات غير مستقرة	3	0
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	2.703	0.719
إجمالي التكلفة	$0.352	$0.051
سعر الإدخال	$1.750 / 1M	$1.250 / 1M
سعر الإخراج	$14.000 / 1M	$3.750 / 1M
رموز الإخراج	21,144	1,988
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	6.82s	1.30s
زمن الاستجابة (الحد الأقصى)	38.52s	3.92s
زمن الاستجابة (الإجمالي)	136.34s	25.95s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	1,807	0
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	242	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	8.2	6.7	83.3%	1		8.05s	4,131	0
Qwen3.7 Max	6.8	10.0	50.0%	0		1.39s	576	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	171	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	980	0
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	7,810	0
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	15	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	335	0
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	120	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	1,441	0
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	72	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	1,603	0
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	314	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	222	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	1,239	0
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	13	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.4mediumvsQwen3.7 Maxnone Qwen3.7 MaxnonevsGLM 5 Turbomedium Qwen3.7 MaxnonevsStep 3.7 Flashmedium Gemma 4 26B A4Bmediumمتاح مجانًاvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.7 Flashmedium GPT-5.2 ChatnonevsGLM 5 Turbomedium Gemini 3.5 FlashminimalvsQwen3.7 Maxnone GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemma 4 26B A4Bmediumمتاح مجانًاvsQwen3.7 Maxnone GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium Gemma 4 31Bmediumمتاح مجانًاvsQwen3.7 Maxnone GPT-5.2 ChatnonevsGrok 4.3medium