Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.4

يتقدم Claude Opus 4.7 (medium) في متوسط النتيجة بـ 8.7 مقابل 8.5. لدى Claude Opus 4.7 (medium) تكلفة benchmark أقل عند $1.477 مقابل $1.533. Claude Opus 4.7 (medium) أسرع عند 7.61s مقابل 23.10s، مع معدلات نجاح 83.3% مقابل 77.3%.

النموذج الموصى بهClaude Opus 4.7 (medium)It has the best score here (8.7), while responding about 3.0x faster than GPT-5.4 (medium).

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-18

المقياس	Claude Opus 4.7 Claude Opus 4.7 medium الإصدار: 2026-04-16	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05

المقياس	Claude Opus 4.7 Claude Opus 4.7 medium الإصدار: 2026-04-16	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05
النتيجة	8.7	8.5
الترتيب	#15	#18
الموثوقية	10.0	10.0
الاتساق	9.6	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	83.3%	77.3%
اختبارات غير مستقرة	1	4
إجمالي مرات التشغيل	66	66
التكلفة لكل نتيجة	8.201	10.220
إجمالي التكلفة	$1.477	$1.533
سعر الإدخال	$5.000 / 1M	$2.500 / 1M
سعر الإخراج	$25.000 / 1M	$15.000 / 1M
إجمالي رموز الإدخال	145,252	81,127
رموز الإخراج	24,948	6,155
رموز الاستدلال	5,042	82,515
زمن الاستجابة (المتوسط)	7.61s	23.10s
زمن الاستجابة (الحد الأقصى)	65.40s	100.41s
زمن الاستجابة (الإجمالي)	159.91s	508.26s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Claude Opus 4.7

medium

التكلفة: $0.059
الوقت: 26.8s
الرموز: 2,475 tok

#18 GPT-5.4

medium

التكلفة: $0.214
الوقت: 199.6s
الرموز: 14,349 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

الفئة:

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		43.42s	104,347	15,459	3,928
GPT-5.4	10.0	10.0	100.0%	0		29.77s	58,038	4,214	13,351

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.4mediumvsGrok 4.5low Claude Opus 4.7mediumvsGrok 4.5high Claude Opus 4.7mediumvsGemini 3.5 Flashlow Muse Spark 1.1lowvsGPT-5.4medium Claude Opus 4.7mediumvsGrok 4.5low GPT-5.4mediumvsGrok 4.5high Gemini 3.5 FlashlowvsGPT-5.4medium Claude Opus 4.7mediumvsMuse Spark 1.1low Muse Spark 1.1highvsGPT-5.4medium GPT-5.4mediumvsInklinghigh GPT-5.4mediumvsGLM 5.2high Kimi K3maxvsGPT-5.4medium