#43

Step 3.5 Flash

Stepfun रिलीज़: 2026-02-01 परीक्षण किया गया: 2026-05-08 15:30 stepfun/step-3.5-flash::medium

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY पर 7.6 स्कोर करता है और #43 पर है। इसकी reliability 10.0, pass rate 66.7%, कुल लागत $0.011, और औसत response time 41.66s है।

Step 3.5 Flash को अलग क्या बनाता है: यह डेटा पार्सिंग और निष्कर्षण में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि पहेली समाधान इसकी सबसे कमजोर जगह है, जहाँ यह #17 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

7.6

संगति

9.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.011

कुल आउटपुट टोकन

251,708

कुल इनपुट टोकन

इनपुट कीमत

$0.100 / 1M

आउटपुट कीमत

$0.300 / 1M

सही परीक्षण

गलत टेस्ट: 7

प्रति प्रयास पास दर: 66.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

41.66s

प्रतिक्रिया समय (अधिकतम): 170.45s

प्रतिक्रिया समय (कुल): 499.91s

गलत उत्तर: 4 निर्देशों का पालन नहीं किया: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#43 Step 3.5 Flash

medium

लागत: $0.008
समय: 277.1s
टोकन: 23,695 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:25 नया टेस्ट जोड़ा गया	6.0	9.2	$0.108 ↑	तुलना करें
2026-06-04 14:12 नया टेस्ट जोड़ा गया	7.2	8.9	$0.070 ↑	तुलना करें
2026-05-22 00:30 सूट बदला गया	7.4	9.3	$0.015	तुलना करें
2026-05-08 15:30 सूट बदला गया	7.6	10.0	$0.011	वर्तमान रन
2026-04-11 00:35 पहला दर्ज रन	7.9	लागू नहीं	$0.000	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 15:30 · सूट बदला गया	7.6	9.2	10.0	11/18	2	251,708	$0.011	41.66s
2026-05-22 00:30 · सूट बदला गया	7.4	8.7	9.3	11/19	3	263,806	$0.015	43.29s
अंतर	+0.2	+0.5	+0.7	0	-1	-12098	-$0.004	-1629ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.5 FlashmediumvsInklinglow Step 3.5 FlashmediumvsQwen3.5-Flashnone Step 3.5 FlashmediumvsGemini 3.1 Flash Litenone Step 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20none Step 3.5 Flashmediumvsgpt-oss-120bmedium Step 3.5 FlashmediumvsQwen3.5-35B-A3Bnone Step 3.5 FlashmediumvsGemini 3 Flash Previewmedium Step 3.5 FlashmediumvsGemini 3.5 Flashhigh Step 3.5 FlashmediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Step 3.5 FlashmediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.5	10.0
निर्देश पालन	8.5	6.8
पहेली समाधान	5.3	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#43 Step 3.5 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल