قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	Anthropic: Claude Opus 4.6 medium الإصدار: 2026-02-05	OpenAI: GPT-5.3 Chat none الإصدار: 2026-03-03
متوسط الدرجة	6.4	7.5
الترتيب	#31	#20
اختبارات صحيحة
الاتساق	8.9	8.4
التكلفة لكل نتيجة	14.411	3.110
إجمالي التكلفة	$1.297	$0.311
معدل النجاح لكل محاولة	64.4%	75.6%
اختبارات غير مستقرة	2	3
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	26,066	18,953
رموز الاستدلال	17,071	0
زمن الاستجابة (المتوسط)	25.08s	6.22s
زمن الاستجابة (الحد الأقصى)	83.40s	18.33s
زمن الاستجابة (الإجمالي)	200.67s	93.31s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsMiMo-V2-Flashmedium GPT-5.3 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone