AI BENCHY
قارن
❤️ Made by XCS

اسم النموذج

StepFun: Step 3.5 Flash

تم إنشاء نتائج المعايير من مجموعات اختبارات Aibenchy في : 19‏/02‏/2026

المقياس StepFun: Step 3.5 Flash
الترتيب#18
الشركةStepfun
Score 4.92
الاتساق 7.34
التكلفة لكل نتيجة 0.0000
إجمالي التكلفة $0.00000
اختبارات صحيحة 5/12
معدل النجاح لكل محاولة 58.3%
اختبارات غير مستقرة 4
رموز الإخراج 46,871
رموز الاستدلال 95,440

تفصيل الفئات

الفئة اختبارات ناجحة بالكامل Score الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة درجة الاستدلال التكلفة
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

النماذج المقارنة

قارن StepFun: Step 3.5 Flash مع...

#17 · MiniMax

MiniMax: MiniMax M2.5

الاستدلال (medium)

Score: 5.08

الاتساق: 6.00

معدل النجاح لكل محاولة: 61.1%

اختبارات غير مستقرة: 6

التكلفة لكل نتيجة: 4.0276

اختبارات صحيحة: 5/12

إجمالي التكلفة: $0.20138

قارن

#19 · OpenAI

OpenAI: GPT-4o-mini

بدون استدلال

Score: 4.00

الاتساق: 9.98

معدل النجاح لكل محاولة: 25.0%

اختبارات غير مستقرة: 0

التكلفة لكل نتيجة: 0.0576

اختبارات صحيحة: 3/12

إجمالي التكلفة: $0.00173

قارن

#16 · Anthropic

Anthropic: Claude Opus 4.6

الاستدلال (medium)

Score: 5.42

الاتساق: 8.60

معدل النجاح لكل محاولة: 55.5%

اختبارات غير مستقرة: 2

التكلفة لكل نتيجة: 12.8695

اختبارات صحيحة: 6/12

إجمالي التكلفة: $0.77217

قارن

مقارنة سريعة

قارن StepFun: Step 3.5 Flash مع...