AI BENCHY Compare

OpenAI: GPT-5.4 vs OpenAI: GPT-5.5

الملخص

مقارنة benchmark بين GPT-5.4 و GPT-5.5: يتقدم GPT-5.5 في متوسط النتيجة بـ 9.3 مقابل 8.5. لدى GPT-5.5 تكلفة benchmark أقل عند $0.907 مقابل $1.210. GPT-5.5 أسرع عند 9.76s مقابل 22.35s، مع معدلات نجاح 76.2% مقابل 85.7%.

النموذج الموصى به: GPT-5.5 - It has the best score here (9.3), while responding about 2.3x faster than GPT-5.4.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-12

المقياس	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24

المقياس	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24
النتيجة	8.5	9.3
الترتيب	#20	#5
الموثوقية	10.0	10.0
الاتساق	8.6	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	76.2%	85.7%
اختبارات غير مستقرة	4	0
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	8.640	5.035
إجمالي التكلفة	$1.210	$0.907
سعر الإدخال	$2.500 / 1M	$5.000 / 1M
سعر الإخراج	$15.000 / 1M	$30.000 / 1M
إجمالي رموز الإدخال	34,108	34,209
رموز الإخراج	2,242	2,046
رموز الاستدلال	72,707	22,460
زمن الاستجابة (المتوسط)	22.35s	9.76s
زمن الاستجابة (الحد الأقصى)	100.41s	56.19s
زمن الاستجابة (الإجمالي)	469.29s	204.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 GPT-5.4

medium

Cost: $0.214
Time: 199.6s
Tokens: 14,349 tok

#5 GPT-5.5

low

Cost: $0.068
Time: 37.0s
Tokens: 2,339 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low DeepSeek V4 FlashhighvsGPT-5.4medium Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.5low Gemini 3.5 FlashlowvsGPT-5.4medium GPT-5.5lowvsGLM 5medium