#108

Step 3.5 Flash

Stepfun रिलीज़: 2026-02-01 परीक्षण किया गया: 2026-04-11 01:44 stepfun/step-3.5-flash::none

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY पर 3.0 स्कोर करता है और #108 पर है। इसकी reliability लागू नहीं, pass rate 0.0%, कुल लागत $0.000, और औसत response time 0ms है।

Step 3.5 Flash को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

स्कोर

3.0

संगति

10.0

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.000

कुल आउटपुट टोकन

कुल इनपुट टोकन

इनपुट कीमत

$0.100 / 1M

आउटपुट कीमत

$0.300 / 1M

सही परीक्षण

गलत टेस्ट: 1

प्रति प्रयास पास दर: 0.0%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

0ms

प्रतिक्रिया समय (अधिकतम): 0ms

प्रतिक्रिया समय (कुल): 0ms

API त्रुटि: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#108 Step 3.5 Flash

none

लागत: $0.005
समय: 156.3s
टोकन: 13,887 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-05-08 15:30 नया टेस्ट जोड़ा गया	6.6	10.0		$0.020	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	3.0	लागू नहीं		$0.000	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-11 01:44 · पहला दर्ज रन	3.0	10.0	लागू नहीं	0/1	0	0	$0.000	0ms
2026-05-08 15:30 · नया टेस्ट जोड़ा गया	6.6	10.0	10.0	6/12	64,795	1,971	$0.020	39.03s
अंतर	-3.6	0.0		-6	-64795	-1971	-$0.020	-39032ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.5 FlashnonevsGemini 3.5 Flashhigh Step 3.5 FlashnonevsGemini 3 Flash Previewmedium Step 3.5 FlashnonevsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध Step 3.5 FlashnonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति	सही परीक्षण
कोडिंग	3.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#108 Step 3.5 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल