AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.4

الملخص

مقارنة benchmark بين Claude Opus 4.8 و GPT-5.4: يتقدم GPT-5.4 في متوسط النتيجة بـ 8.5 مقابل 7.7. لدى GPT-5.4 تكلفة benchmark أقل عند $1.210 مقابل $1.270. Claude Opus 4.8 أسرع عند 10.83s مقابل 22.35s، مع معدلات نجاح 79.4% مقابل 76.2%.

النموذج الموصى به: GPT-5.4 - It has the strongest score in this comparison (8.5) and the best overall balance of cost and response time across all 2 models.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-02

المقياس	Claude Opus 4.8 Claude Opus 4.8 low الإصدار: 2026-05-28	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05

المقياس	Claude Opus 4.8 Claude Opus 4.8 low الإصدار: 2026-05-28	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05
النتيجة	7.7	8.5
الترتيب	#38	#17
الموثوقية	10.0	10.0
الاتساق	8.8	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	79.4%	76.2%
اختبارات غير مستقرة	3	4
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	8.466	8.640
إجمالي التكلفة	$1.270	$1.210
سعر الإدخال	$5.000 / 1M	$2.500 / 1M
سعر الإخراج	$25.000 / 1M	$15.000 / 1M
إجمالي رموز الإدخال	60,946	34,108
رموز الإخراج	31,771	2,242
رموز الاستدلال	6,831	72,707
زمن الاستجابة (المتوسط)	10.83s	22.35s
زمن الاستجابة (الحد الأقصى)	127.97s	100.41s
زمن الاستجابة (الإجمالي)	227.39s	469.29s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

التكلفة: $0.031
الوقت: 14.1s
الرموز: 1,345 tok

#17 GPT-5.4

medium

التكلفة: $0.214
الوقت: 199.6s
الرموز: 14,349 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

مقارنة سريعة

تبديل زوج المقارنة