Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

يتقدم Claude Opus 4.6 (medium) في متوسط النتيجة بـ 7.7 مقابل 7.5. لدى GPT-5.3 Chat تكلفة benchmark أقل عند $0.571 مقابل $3.059. GPT-5.3 Chat أسرع عند 6.88s مقابل 34.27s، مع معدلات نجاح 63.6% مقابل 68.2%.

النموذج الموصى بهGPT-5.3 ChatIts score stays close to the best score here (7.5 vs 7.7), while costing about 5.4x less than Claude Opus 4.6 (medium).

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-25

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03
النتيجة	7.7	7.5
الترتيب	#50	#62
الموثوقية	10.0	10.0
الاتساق	8.8	8.2
اختبارات صحيحة
معدل النجاح لكل محاولة	63.6%	68.2%
اختبارات غير مستقرة	3	5
إجمالي مرات التشغيل	66	66
التكلفة لكل نتيجة	23.524	4.387
إجمالي التكلفة	$3.059	$0.571
سعر الإدخال	$5.000 / 1M	$1.750 / 1M
سعر الإخراج	$25.000 / 1M	$14.000 / 1M
إجمالي رموز الإدخال	108,615	78,990
رموز الإخراج	72,286	30,854
رموز الاستدلال	28,315	0
زمن الاستجابة (المتوسط)	34.27s	6.88s
زمن الاستجابة (الحد الأقصى)	151.51s	18.33s
زمن الاستجابة (الإجمالي)	513.99s	151.31s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#50 Claude Opus 4.6

medium

SVG غير صالح

التكلفة: $0.000
الوقت: 300.0s
الرموز: 0 tok

#62 GPT-5.3 Chat

none

التكلفة: $0.008
الوقت: 8.1s
الرموز: 634 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

الفئة:

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		114.08s	76,073	33,018	9,509
GPT-5.3 Chat	10.0	10.0	100.0%	0		15.07s	55,800	6,851	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.6mediumvsGPT-5.6 Lunahigh Kimi K2.7 CodemediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Nemotron 3 Ultramediumمتاح مجانًاvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsDeepSeek V4 Prohigh GPT-5.3 ChatnonevsQwen3.5-27Bmedium GPT-5.3 ChatnonevsGrok Build 0.1medium LongCat 2.0mediumvsGPT-5.3 Chatnone MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone KAT-Coder-Pro V2.5lowvsGPT-5.3 Chatnone