#130

Step 3.5 Flash

Stepfun रिलीज़: 2026-02-01 परीक्षण किया गया: 2026-07-16 23:25 stepfun/step-3.5-flash::medium

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY पर 6.0 स्कोर करता है और #130 पर है। इसकी reliability 9.2, pass rate 51.5%, कुल लागत $0.108, और औसत response time 174.22s है।

Step 3.5 Flash को अलग क्या बनाता है: यह एंटी-एआई ट्रिक्स में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि कोडिंग इसकी सबसे कमजोर जगह है, जहाँ यह #13 पर है। यह असामान्य रूप से अधिक reasoning tokens इस्तेमाल करता है, जिससे धीमे या महंगे runs समझ में आ सकते हैं।

स्कोर

6.0

संगति

9.0

विश्वसनीयता

9.2

कुल लागत (वर्तमान कीमत)

$0.108 ↑ +80.5%

परीक्षण के समय: $0.060

कुल आउटपुट टोकन

402,554

कुल इनपुट टोकन

65,707

इनपुट कीमत

$0.100 / 1M

आउटपुट कीमत

$0.300 / 1M

सही परीक्षण

गलत टेस्ट: 10

प्रति प्रयास पास दर: 51.5%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

174.22s

प्रतिक्रिया समय (अधिकतम): 1597.85s

प्रतिक्रिया समय (कुल): 2613.32s

गलत उत्तर: 4 निर्देशों का पालन नहीं किया: 3 API त्रुटि: 1 कोई उत्तर नहीं: 1 समय समाप्त: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#130 Step 3.5 Flash

medium

लागत: $0.008
समय: 277.1s
टोकन: 23,695 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:25 नया टेस्ट जोड़ा गया	6.0	9.2	$0.108 ↑	वर्तमान रन
2026-06-04 14:12 नया टेस्ट जोड़ा गया	7.2	8.9	$0.070 ↑	तुलना करें
2026-05-22 00:30 सूट बदला गया	7.4	9.3	$0.015	तुलना करें
2026-05-08 15:30 सूट बदला गया	7.6	10.0	$0.011	तुलना करें
2026-04-11 00:35 पहला दर्ज रन	7.9	लागू नहीं	$0.000	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-07-16 23:25 · वर्तमान रन	6.0	9.0	9.2	11/21	1	402,554	65,707	$0.108	174.22s
2026-05-08 15:30 · सूट बदला गया	7.6	9.2	10.0	11/18	2	251,708	0	$0.011	41.66s
अंतर	-1.6	-0.2	-0.8	0	-1	+150846	+65707	+$0.097	+132562ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$0.090 / 1M	$0.300 / 1M
2026-06-30 21:25	$0.100 / 1M	$0.300 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.5 FlashmediumvsInklinglow Step 3.5 FlashmediumvsQwen3.5-Flashnone Step 3.5 FlashmediumvsGemini 3.1 Flash Litenone Step 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20none Step 3.5 Flashmediumvsgpt-oss-120bmedium Step 3.5 FlashmediumvsQwen3.5-35B-A3Bnone Step 3.5 FlashmediumvsGemini 3 Flash Previewmedium Step 3.5 FlashmediumvsGemini 3.5 Flashhigh Step 3.5 FlashmediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Step 3.5 FlashmediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	2.4	5.2
संयुक्त	6.5	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.5	10.0
निर्देश पालन	8.3	10.0
पहेली समाधान	5.3	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#130 Step 3.5 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल