التنقل
AI BENCHY
قارن الرسوم البيانية
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس Anthropic: Claude Opus 4.6 medium الإصدار: 2026-02-05 Inception: Mercury 2 none الإصدار: 2026-02-24
الترتيب #30 #50
متوسط الدرجة 64 34
الاتساق 89 89
التكلفة لكل نتيجة 14.411 0.147
إجمالي التكلفة $1.297 $0.006
زمن الاستجابة (المتوسط) 25.08s 594ms
زمن الاستجابة (الحد الأقصى) 83.40s 1.27s
زمن الاستجابة (الإجمالي) 200.67s 8.91s
اختبارات صحيحة
معدل النجاح لكل محاولة 64.4% 33.3%
اختبارات غير مستقرة 2 2
رموز الإخراج 26,066 1,144
رموز الاستدلال 17,071 0

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 40 44 55.6% 2 11.88s 897 1,000
Inception: Mercury 2 100 100 0.0% 0 466ms 274 0
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 100 100 100.0% 0 76.66s 8,178 5,194
Inception: Mercury 2 100 100 0.0% 0 606ms 131 0
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 99 100 100.0% 0 7.37s 691 757
Inception: Mercury 2 55 59 83.3% 1 667ms 180 0
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 100 100 0.0% 0 83.40s 14,642 8,687
Inception: Mercury 2 40 72 44.4% 1 534ms 46 0
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 100 100 100.0% 0 2.43s 266 467
Inception: Mercury 2 55 100 50.0% 0 551ms 82 0
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 70 100 66.7% 0 4.60s 531 637
Inception: Mercury 2 100 100 0.0% 0 533ms 234 0
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Anthropic: Claude Opus 4.6 100 100 100.0% 0 9.73s 861 329
Inception: Mercury 2 100 100 100.0% 0 1.27s 197 0

مقارنة سريعة

تبديل زوج المقارنة