#60

Step 3.7 Flash

Stepfun रिलीज़: 2026-05-29 परीक्षण किया गया: 2026-05-29 11:49 stepfun/step-3.7-flash::low

(high) (medium) (low)

सारांश

Step 3.7 Flash AI BENCHY पर 7.4 स्कोर करता है और #60 पर है। इसकी reliability 10.0, pass rate 68.3%, कुल लागत $0.336, और औसत response time 16.06s है।

Step 3.7 Flash को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि Samanya Buddhimatta इसकी सबसे कमजोर जगह है, जहाँ यह #15 पर है।

स्कोर

7.4

संगति

8.7

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.336

कुल आउटपुट टोकन

285,209

कुल इनपुट टोकन

इनपुट कीमत

$0.200 / 1M

आउटपुट कीमत

$1.150 / 1M

सही परीक्षण

गलत टेस्ट: 8

प्रति प्रयास पास दर: 68.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

16.06s

प्रतिक्रिया समय (अधिकतम): 124.75s

प्रतिक्रिया समय (कुल): 321.11s

गलत उत्तर: 7 कोई उत्तर नहीं: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#60 Step 3.7 Flash

low

अमान्य SVG

लागत: $0.004
समय: 25.3s
टोकन: 3,072 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-06-04 13:49 नया टेस्ट जोड़ा गया	7.3	10.0		$0.341	तुलना करें
2026-05-29 11:49 पहला रन	7.4	10.0		$0.336	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-29 11:49 · पहला रन	7.4	8.7	10.0	12/20	3	285,209	0	$0.336	16.06s
2026-06-04 13:49 · नया टेस्ट जोड़ा गया	7.3	8.4	10.0	12/21	4	289,325	40,101	$0.341	15.74s
अंतर	+0.1	+0.3	0.0	0	-1	-4116	-40101	-$0.006	+311ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.7 FlashlowvsGrok 4.3medium Step 3.7 FlashlowvsQwen3.5-122B-A10Bmedium Step 3.7 FlashlowvsMiniMax M3medium Step 3.7 FlashlowvsKimi K2.6mediumनिःशुल्क उपलब्ध Step 3.7 FlashlowvsDeepSeek V4 Prohigh Step 3.7 FlashlowvsGemini 3.5 Flashhigh Step 3.7 FlashlowvsGemini 3 Flash Previewmedium Step 3.7 FlashlowvsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध Step 3.7 FlashlowvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	7.3	5.8
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	3.4	9.3
निर्देश पालन	9.8	10.0
पहेली समाधान	5.5	9.9
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Step 3.7 Flash

Hamster playing table tennis

#60 Step 3.7 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल