AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.3 Chat

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-28

المقياس	Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03

المقياس	Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03
النتيجة	7.3	7.4
الترتيب	#63	#56
الموثوقية	10.0	10.0
الاتساق	9.2	8.4
اختبارات صحيحة
معدل النجاح لكل محاولة	65.0%	68.3%
اختبارات غير مستقرة	2	4
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	4.324	3.350
إجمالي التكلفة	$0.519	$0.402
سعر الإدخال	$5.000 / 1M	$1.750 / 1M
سعر الإخراج	$25.000 / 1M	$14.000 / 1M
رموز الإخراج	8,098	24,757
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	3.51s	6.13s
زمن الاستجابة (الحد الأقصى)	17.73s	18.33s
زمن الاستجابة (الإجمالي)	70.19s	122.61s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
GPT-5.3 Chat	6.9	6.2	66.7%	1		10.52s	4,772	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	1,491	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	1,758	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	569	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.3 ChatnonevsMiMo-V2.5medium GPT-5.3 ChatnonevsGLM 5.1medium Kimi K2.6mediumمتاح مجانًاvsGPT-5.3 Chatnone Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium GPT-5.3 ChatnonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium