قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Anthropic: Claude Opus 4.6 medium الإصدار: 2026-02-05	Inception: Mercury 2 none الإصدار: 2026-02-24
الترتيب	#30	#50
متوسط الدرجة	64	34
الاتساق	89	89
التكلفة لكل نتيجة	14.411	0.147
إجمالي التكلفة	$1.297	$0.006
زمن الاستجابة (المتوسط)	25.08s	594ms
زمن الاستجابة (الحد الأقصى)	83.40s	1.27s
زمن الاستجابة (الإجمالي)	200.67s	8.91s
اختبارات صحيحة
معدل النجاح لكل محاولة	64.4%	33.3%
اختبارات غير مستقرة	2	2
رموز الإخراج	26,066	1,144
رموز الاستدلال	17,071	0

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	40	44	55.6%	2		11.88s	897	1,000
Inception: Mercury 2	100	100	0.0%	0		466ms	274	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	100	100	100.0%	0		76.66s	8,178	5,194
Inception: Mercury 2	100	100	0.0%	0		606ms	131	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	99	100	100.0%	0		7.37s	691	757
Inception: Mercury 2	55	59	83.3%	1		667ms	180	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	100	100	0.0%	0		83.40s	14,642	8,687
Inception: Mercury 2	40	72	44.4%	1		534ms	46	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	100	100	100.0%	0		2.43s	266	467
Inception: Mercury 2	55	100	50.0%	0		551ms	82	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	70	100	66.7%	0		4.60s	531	637
Inception: Mercury 2	100	100	0.0%	0		533ms	234	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	100	100	100.0%	0		9.73s	861	329
Inception: Mercury 2	100	100	100.0%	0		1.27s	197	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 2.5 Flashnone Claude Opus 4.6mediumvsDeepSeek V3.2none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsQwen3.5-122B-A10Bnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone