AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs OpenAI: GPT-5.5

الملخص

مقارنة benchmark بين GPT-5.4 Mini و GPT-5.5: يتقدم GPT-5.5 في متوسط النتيجة بـ 9.3 مقابل 5.3. لدى GPT-5.4 Mini تكلفة benchmark أقل عند $0.038 مقابل $0.907. GPT-5.4 Mini أسرع عند 1.13s مقابل 9.76s، مع معدلات نجاح 30.2% مقابل 85.7%.

النموذج الموصى به: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-12

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24
النتيجة	5.3	9.3
الترتيب	#131	#5
الموثوقية	10.0	10.0
الاتساق	8.8	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	30.2%	85.7%
اختبارات غير مستقرة	3	0
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	0.743	5.035
إجمالي التكلفة	$0.038	$0.907
سعر الإدخال	$0.750 / 1M	$5.000 / 1M
سعر الإخراج	$4.500 / 1M	$30.000 / 1M
إجمالي رموز الإدخال	34,244	34,209
رموز الإخراج	2,541	2,046
رموز الاستدلال	0	22,460
زمن الاستجابة (المتوسط)	1.13s	9.76s
زمن الاستجابة (الحد الأقصى)	2.52s	56.19s
زمن الاستجابة (الإجمالي)	23.82s	204.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#131 GPT-5.4 Mini

none

Cost: $0.010
Time: 11.7s
Tokens: 2,151 tok

#5 GPT-5.5

low

Cost: $0.068
Time: 37.0s
Tokens: 2,339 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	606	654	0
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.5	10.0	33.3%	0		913ms	7,305	401	0
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	11,019	298	0
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	7,140	222	0
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	723	88	0
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	477	174	0
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	660	101	0
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.4	10.0	33.3%	0		836ms	642	305	0
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	5,477	255	0
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		1.33s	195	43	0
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.5lowvsQwen3.7 Maxmedium MiniMax M2.7mediumvsGPT-5.4 Mininone Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Mistral Small 4mediumvsGPT-5.4 Mininone Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low CobuddymediumvsGPT-5.4 Mininone GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low MiniMax M2.5mediumvsGPT-5.4 Mininone