AI BENCHY Compare

النماذج المقارنة

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	GPT-5.2 GPT-5.2 medium الإصدار: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	GPT-5.4 GPT-5.4 none الإصدار: 2026-03-05

المقياس	GPT-5.2 GPT-5.2 medium الإصدار: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	GPT-5.4 GPT-5.4 none الإصدار: 2026-03-05
الترتيب	#29	#20	#51
متوسط الدرجة	6.5	7.3	4.5
الاتساق	7.9	8.5	8.9
التكلفة لكل نتيجة	3.125	3.163	1.562
إجمالي التكلفة	$0.313	$0.317	$0.094
اختبارات صحيحة
معدل النجاح لكل محاولة	75.0%	70.8%	41.7%
اختبارات غير مستقرة	4	3	2
إجمالي مرات التشغيل	48	48	48
رموز الإخراج	2,220	19,272	1,819
رموز الاستدلال	16,811	0	0
زمن الاستجابة (المتوسط)	15.33s	5.96s	1.48s
زمن الاستجابة (الحد الأقصى)	77.80s	18.33s	2.89s
زمن الاستجابة (الإجمالي)	138.01s	95.30s	23.64s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	7.0	7.3	77.8%	1		14.34s	549	2,002
GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	9.9	10.0	100.0%	0		3.15s	234	420
GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	4.0	7.2	55.6%	1		77.80s	42	10,342
GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	9.7	0.0%	0		4.32s	162	269
GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
GPT-5.4	3.0	9.9	0.0%	0		1.78s	184	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	9.5	10.0	100.0%	0		3.12s	94	614
GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	7.0	7.3	77.8%	1		5.47s	609	938
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2	10.0	1.6	66.7%	1		10.30s	239	469
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

مقارنة سريعة

تبديل زوج المقارنة

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا MiniMax M2.5mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGPT-5.2medium GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none GPT-5.3 ChatnonevsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone