AI BENCHY Compare

OpenAI: GPT-4o-mini vs OpenAI: GPT-5.5

الملخص

مقارنة benchmark بين GPT-4o-mini و GPT-5.5: يتقدم GPT-5.5 في متوسط النتيجة بـ 9.3 مقابل 5.0. لدى GPT-4o-mini تكلفة benchmark أقل عند $0.006 مقابل $0.907. GPT-4o-mini أسرع عند 1.77s مقابل 9.76s، مع معدلات نجاح 23.8% مقابل 85.7%.

النموذج الموصى به: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-02

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24
النتيجة	5.0	9.3
الترتيب	#144	#4
الموثوقية	10.0	10.0
الاتساق	9.9	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	23.8%	85.7%
اختبارات غير مستقرة	0	0
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	0.119	5.035
إجمالي التكلفة	$0.006	$0.907
سعر الإدخال	$0.150 / 1M	$5.000 / 1M
سعر الإخراج	$0.600 / 1M	$30.000 / 1M
إجمالي رموز الإدخال	31,518	34,209
رموز الإخراج	1,982	2,046
رموز الاستدلال	0	22,460
زمن الاستجابة (المتوسط)	1.77s	9.76s
زمن الاستجابة (الحد الأقصى)	7.58s	56.19s
زمن الاستجابة (الإجمالي)	24.80s	204.92s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#144 GPT-4o-mini

none

التكلفة: $0.001
الوقت: 6.6s
الرموز: 742 tok

#4 GPT-5.5

low

التكلفة: $0.068
الوقت: 37.0s
الرموز: 2,339 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	618	186	0
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.2	9.6	0.0%	0		1.63s	7,314	367	0
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	8,298	568	0
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	7,161	183	0
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	732	15	0
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	480	66	0
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	6.3	10.0	50.0%	0		1.11s	666	69	0
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.5	10.0	0.0%	0		1.21s	651	308	0
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	5,400	205	0
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	198	15	0
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

مقارنة سريعة

تبديل زوج المقارنة

CobuddymediumvsGPT-4o-mininone GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Mistral Small 4mediumvsGPT-4o-mininone Gemini 3.5 FlashmediumvsGPT-5.5low MiniMax M2.5mediumvsGPT-4o-mininone MiniMax M2.7mediumvsGPT-4o-mininone Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-4o-mininonevsQwen3 Coder Nextmedium GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low