التنقل
AI BENCHY
قارن الرسوم البيانية
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Inception: Mercury 2 vs StepFun: Step 3.5 Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس Inception: Mercury 2 none الإصدار: 2026-02-24 StepFun: Step 3.5 Flash medium الإصدار: 2026-02-01 متاح مجانًا
الترتيب #50 #13
متوسط الدرجة 31 74
الاتساق 89 94
التكلفة لكل نتيجة 0.196 0.000
إجمالي التكلفة $0.006 $0.000
اختبارات صحيحة
معدل النجاح لكل محاولة 26.7% 68.9%
اختبارات غير مستقرة 2 1
رموز الإخراج 1,144 69,238
رموز الاستدلال 0 152,563

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 0.0% 0 274 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 13,924 17,208
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 0.0% 0 131 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 1,176 12,984
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 55 59 83.3% 1 180 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 600 13,886
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 40 72 44.4% 1 46 0
StepFun: Step 3.5 Flash 40 72 44.4% 1 45,350 90,436
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 35 100 0.0% 0 82 0
StepFun: Step 3.5 Flash 85 100 50.0% 0 2,284 3,412
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 0.0% 0 234 0
StepFun: Step 3.5 Flash 40 100 33.3% 0 5,629 10,835
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Inception: Mercury 2 100 100 100.0% 0 197 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 275 3,802

مقارنة سريعة

تبديل زوج المقارنة