التنقل
AI BENCHY
قارن الرسوم البيانية
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs StepFun: Step 3.5 Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس Inception: Mercury 2 medium الإصدار: 2026-02-24 StepFun: Step 3.5 Flash medium الإصدار: 2026-02-01 متاح مجانًا
الترتيب #35 #16
متوسط الدرجة 54 75
الاتساق 83 90
التكلفة لكل نتيجة 0.622 0.000
إجمالي التكلفة $0.044 $0.000
اختبارات صحيحة
معدل النجاح لكل محاولة 57.8% 73.3%
اختبارات غير مستقرة 3 2
رموز الإخراج 3,571 69,238
رموز الاستدلال 45,379 152,563

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 73 98 66.7% 0 2,531 2,410
StepFun: Step 3.5 Flash 100 100 100.0% 0 13,924 17,208
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 268 4,887
StepFun: Step 3.5 Flash 100 100 100.0% 0 1,176 12,984
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 55 59 83.3% 1 183 1,656
StepFun: Step 3.5 Flash 100 100 100.0% 0 600 13,886
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 72 11.1% 1 41 30,754
StepFun: Step 3.5 Flash 40 72 44.4% 1 45,350 90,436
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 14 958
StepFun: Step 3.5 Flash 90 68 83.3% 1 2,284 3,412
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 17 75 22.2% 1 354 2,758
StepFun: Step 3.5 Flash 40 100 33.3% 0 5,629 10,835
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 180 1,956
StepFun: Step 3.5 Flash 100 100 100.0% 0 275 3,802

مقارنة سريعة

تبديل زوج المقارنة