قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.4

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	Anthropic: Claude Opus 4.6 medium الإصدار: 2026-02-05	OpenAI: GPT-5.4 none الإصدار: 2026-03-05
متوسط الدرجة	6.4	4.6
الترتيب	#30	#44
اختبارات صحيحة
الاتساق	8.9	8.9
التكلفة لكل نتيجة	14.411	1.496
إجمالي التكلفة	$1.297	$0.090
معدل النجاح لكل محاولة	64.4%	44.4%
اختبارات غير مستقرة	2	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	26,066	1,635
رموز الاستدلال	17,071	0
زمن الاستجابة (المتوسط)	25.08s	1.46s
زمن الاستجابة (الحد الأقصى)	83.40s	2.89s
زمن الاستجابة (الإجمالي)	200.67s	21.86s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGPT-5.4none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGemini 2.5 Flashnone Claude Opus 4.6mediumvsDeepSeek V3.2none GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium