StepFun: Step 3.5 Flash

تم إنشاء نتائج المعايير من مجموعات اختبارات Aibenchy في : 19‏/02‏/2026

تفصيل الفئات

الفئة	اختبارات ناجحة بالكامل	Score	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	درجة الاستدلال	التكلفة
Anti-AI Tricks	1/2	5.50	5.81	83.3%	1	10.00	$0.00000
Data parsing and extraction	1/2	5.00	10.00	50.0%	0	9.75	$0.00000
Domain specific	1/3	4.00	7.21	44.4%	1	8.44	$0.00000
Instructions following	2/2	10.00	10.00	100.0%	0	9.67	$0.00000
Puzzle Solving	0/3	2.00	4.96	33.3%	2	9.22	$0.00000

قارن StepFun: Step 3.5 Flash مع...

#17 · MiniMax

الاستدلال (medium)

Score: 5.08

الاتساق: 6.00

معدل النجاح لكل محاولة: 61.1%

اختبارات غير مستقرة: 6

التكلفة لكل نتيجة: 4.0276

اختبارات صحيحة: 5/12

إجمالي التكلفة: $0.20138

#19 · OpenAI

بدون استدلال

Score: 4.00

الاتساق: 9.98

معدل النجاح لكل محاولة: 25.0%

اختبارات غير مستقرة: 0

التكلفة لكل نتيجة: 0.0576

اختبارات صحيحة: 3/12

إجمالي التكلفة: $0.00173

#16 · Anthropic

الاستدلال (medium)

Score: 5.42

الاتساق: 8.60

معدل النجاح لكل محاولة: 55.5%

اختبارات غير مستقرة: 2

التكلفة لكل نتيجة: 12.8695

اختبارات صحيحة: 6/12

إجمالي التكلفة: $0.77217

قارن StepFun: Step 3.5 Flash مع...