التنقل
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs StepFun: Step 3.7 Flash

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-29

المقياس Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28 Step 3.7 Flash Step 3.7 Flash high الإصدار: 2026-05-29
النتيجة 7.3 7.1
الترتيب #65 #74
الموثوقية 10.0 10.0
الاتساق 9.2 8.2
اختبارات صحيحة
معدل النجاح لكل محاولة 65.0% 65.8%
اختبارات غير مستقرة 2 4
إجمالي مرات التشغيل 60 60
التكلفة لكل نتيجة 4.324 8.723
إجمالي التكلفة $0.519 $0.960
سعر الإدخال $5.000 / 1M $0.200 / 1M
سعر الإخراج $25.000 / 1M $1.150 / 1M
رموز الإخراج 8,098 828,084
رموز الاستدلال 0 0
زمن الاستجابة (المتوسط) 3.51s 49.43s
زمن الاستجابة (الحد الأقصى) 17.73s 192.75s
زمن الاستجابة (الإجمالي) 70.19s 988.58s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 42,656 0
البرمجة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
Step 3.7 Flash 3.6 4.6 25.0% 1 126.82s 164,069 0
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 8,802 0
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 23,113 0
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 410,502 0
الذكاء العام النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 2,862 0
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 2,010 0
حل الألغاز النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 25,422 0
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 1,172 0
معلومات عامة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 147,476 0

مقارنة سريعة

تبديل زوج المقارنة