#187

Step 3.5 Flash

Stepfun रिलीज़: 2026-02-01 परीक्षण किया गया: 2026-05-08 15:30 stepfun/step-3.5-flash::none

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY पर 2.6 स्कोर करता है और #187 पर है। इसकी reliability 10.0, pass rate 28.6%, कुल लागत $0.020, और औसत response time 39.03s है।

Step 3.5 Flash को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

स्कोर

2.6

संगति

5.7

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.020

कुल आउटपुट टोकन

64,795

कुल इनपुट टोकन

1,971

इनपुट कीमत

$0.100 / 1M

आउटपुट कीमत

$0.300 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 28.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

39.03s

प्रतिक्रिया समय (अधिकतम): 114.12s

प्रतिक्रिया समय (कुल): 312.26s

API त्रुटि: 4 निर्देशों का पालन नहीं किया: 1 गलत उत्तर: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#187 Step 3.5 Flash

none

लागत: $0.005
समय: 156.3s
टोकन: 13,887 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-05-08 15:30 नया टेस्ट जोड़ा गया	6.6	10.0		$0.020	वर्तमान रन
2026-04-11 01:44 पहला दर्ज रन	3.0	लागू नहीं		$0.000	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:30 · वर्तमान रन	2.6	5.7	10.0	6/12	64,795	1,971	$0.020	39.03s
2026-04-11 01:44 · पहला दर्ज रन	3.0	10.0	लागू नहीं	0/1	0	0	$0.000	0ms
अंतर	-0.4	-4.3		+6	+64795	+1971	+$0.020	+39032ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$0.090 / 1M	$0.300 / 1M
2026-06-30 21:25	$0.100 / 1M	$0.300 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.5 FlashnonevsGemini 3.5 Flashhigh Step 3.5 FlashnonevsGemini 3 Flash Previewmedium Step 3.5 FlashnonevsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध Step 3.5 FlashnonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	9.8	3.3
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	1.5	5.0
डोमेन-विशिष्ट	3.3	3.3
Samanya Buddhimatta	4.0	10.0
निर्देश पालन	5.0	5.0
पहेली समाधान	0.0	0.0
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#187 Step 3.5 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल