AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs OpenAI: GPT-5.4 Nano

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-17

المقياس	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	GPT-5.4 Nano GPT-5.4 Nano medium الإصدار: 2026-03-17

المقياس	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03	GPT-5.4 Nano GPT-5.4 Nano medium الإصدار: 2026-03-17
الترتيب	#26	#28
النتيجة	7.6	7.4
الاتساق	8.6	9.0
التكلفة لكل نتيجة	3.177	0.769
إجمالي التكلفة	$0.318	$0.077
اختبارات صحيحة
معدل النجاح لكل محاولة	66.7%	66.7%
اختبارات غير مستقرة	3	2
إجمالي مرات التشغيل	51	51
رموز الإخراج	19,348	2,474
رموز الاستدلال	0	54,516
زمن الاستجابة (المتوسط)	5.68s	11.08s
زمن الاستجابة (الحد الأقصى)	18.33s	94.06s
زمن الاستجابة (الإجمالي)	96.58s	188.39s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0
GPT-5.4 Nano	8.3	10.0	75.0%	0		4.52s	683	2,254

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
GPT-5.4 Nano	9.8	10.0	100.0%	0		24.13s	349	5,719

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		2.54s	234	516

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0
GPT-5.4 Nano	5.9	7.2	55.6%	1		38.18s	60	43,325

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0
GPT-5.4 Nano	4.5	10.0	0.0%	0		4.15s	179	443

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	8.3	10.0	50.0%	0		3.29s	1,455	0
GPT-5.4 Nano	9.8	10.0	100.0%	0		1.88s	95	521

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
GPT-5.4 Nano	4.0	7.1	22.2%	1		3.65s	640	1,356

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		7.71s	234	382

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا GPT-5.3 ChatnonevsGrok 4.20 Betamedium Kimi K2.5mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Nanomedium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone