التنقل
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs xAI: Grok 4.20

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-29

المقياس Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28 Grok 4.20 Grok 4.20 medium الإصدار: 2026-03-31
النتيجة 7.3 7.0
الترتيب #65 #80
الموثوقية 10.0 10.0
الاتساق 9.2 8.4
اختبارات صحيحة
معدل النجاح لكل محاولة 65.0% 63.3%
اختبارات غير مستقرة 2 4
إجمالي مرات التشغيل 60 60
التكلفة لكل نتيجة 4.324 7.616
إجمالي التكلفة $0.519 $0.838
سعر الإدخال $5.000 / 1M $1.250 / 1M
سعر الإخراج $25.000 / 1M $2.500 / 1M
رموز الإخراج 8,098 1,816
رموز الاستدلال 0 157,251
زمن الاستجابة (المتوسط) 3.51s 19.08s
زمن الاستجابة (الحد الأقصى) 17.73s 105.80s
زمن الاستجابة (الإجمالي) 70.19s 381.60s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
Grok 4.20 8.2 7.9 83.3% 1 3.95s 287 8,312
البرمجة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
Grok 4.20 4.1 1.8 50.0% 2 65.07s 265 40,877
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
Grok 4.20 10.0 10.0 100.0% 0 17.40s 232 9,556
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
Grok 4.20 10.0 10.0 100.0% 0 4.17s 180 5,333
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
Grok 4.20 5.3 10.0 33.3% 0 27.03s 375 49,339
الذكاء العام النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
Grok 4.20 3.9 2.6 33.3% 1 24.48s 65 6,440
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
Grok 4.20 9.8 10.0 100.0% 0 4.26s 57 6,419
حل الألغاز النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
Grok 4.20 7.7 10.0 66.7% 0 6.22s 149 7,913
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
Grok 4.20 3.0 10.0 0.0% 0 13.68s 197 6,620
معلومات عامة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
Grok 4.20 3.0 10.0 0.0% 0 63.48s 9 16,442

مقارنة سريعة

تبديل زوج المقارنة