AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.3 Chat

الملخص

مقارنة benchmark بين Claude Opus 4.7 و GPT-5.3 Chat: يتقدم Claude Opus 4.7 في متوسط النتيجة بـ 8.7 مقابل 7.5. لدى GPT-5.3 Chat تكلفة benchmark أقل عند $0.433 مقابل $0.679. Claude Opus 4.7 أسرع عند 4.73s مقابل 6.34s، مع معدلات نجاح 82.5% مقابل 66.7%.

النموذج الموصى به: Claude Opus 4.7 - It has the strongest score in this comparison (8.7) and the best overall balance of cost and response time across all 2 models.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-18

المقياس	Claude Opus 4.7 Claude Opus 4.7 medium الإصدار: 2026-04-16	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03

المقياس	Claude Opus 4.7 Claude Opus 4.7 medium الإصدار: 2026-04-16	GPT-5.3 Chat GPT-5.3 Chat none الإصدار: 2026-03-03
النتيجة	8.7	7.5
الترتيب	#13	#45
الموثوقية	10.0	10.0
الاتساق	9.6	8.1
اختبارات صحيحة
معدل النجاح لكل محاولة	82.5%	66.7%
اختبارات غير مستقرة	1	5
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	3.991	3.605
إجمالي التكلفة	$0.679	$0.433
سعر الإدخال	$5.000 / 1M	$1.750 / 1M
سعر الإخراج	$25.000 / 1M	$14.000 / 1M
إجمالي رموز الإدخال	65,406	34,209
رموز الإخراج	11,858	26,617
رموز الاستدلال	2,198	0
زمن الاستجابة (المتوسط)	4.73s	6.34s
زمن الاستجابة (الحد الأقصى)	23.18s	18.33s
زمن الاستجابة (الإجمالي)	94.51s	133.13s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#13 Claude Opus 4.7

medium

التكلفة: $0.059
الوقت: 26.8s
الرموز: 2,475 tok

#45 GPT-5.3 Chat

none

التكلفة: $0.008
الوقت: 8.1s
الرموز: 634 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	24,501	2,369	1,084
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20medium GPT-5.3 ChatnonevsStep 3.7 Flashlow