#34

Step 3.5 Flash

Stepfun रिलीज़: 2026-02-01 परीक्षण किया गया: 2026-04-11 00:35 stepfun/step-3.5-flash::medium

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY पर 7.9 स्कोर करता है और #34 पर है। इसकी reliability लागू नहीं, pass rate 70.6%, कुल लागत $0.000, और औसत response time 26.78s है।

Step 3.5 Flash को अलग क्या बनाता है: यह संयुक्त में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि पहेली समाधान इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

7.9

संगति

9.1

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.000

कुल आउटपुट टोकन

227,511

कुल इनपुट टोकन

इनपुट कीमत

$0.100 / 1M

आउटपुट कीमत

$0.300 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 70.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

26.78s

प्रतिक्रिया समय (अधिकतम): 170.45s

प्रतिक्रिया समय (कुल): 294.58s

निर्देशों का पालन नहीं किया: 3 गलत उत्तर: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Step 3.5 Flash

medium

लागत: $0.008
समय: 277.1s
टोकन: 23,695 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:25 नया टेस्ट जोड़ा गया	6.0	9.2	$0.108 ↑	तुलना करें
2026-06-04 14:12 नया टेस्ट जोड़ा गया	7.2	8.9	$0.070 ↑	तुलना करें
2026-05-22 00:30 सूट बदला गया	7.4	9.3	$0.015	तुलना करें
2026-05-08 15:30 सूट बदला गया	7.6	10.0	$0.011	तुलना करें
2026-04-11 00:35 पहला दर्ज रन	7.9	लागू नहीं	$0.000	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-11 00:35 · पहला दर्ज रन	7.9	9.1	लागू नहीं	11/17	2	227,511	$0.000	26.78s
2026-05-08 15:30 · सूट बदला गया	7.6	9.2	10.0	11/18	2	251,708	$0.011	41.66s
अंतर	+0.3	-0.1		0	0	-24197	-$0.011	-14879ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.5 FlashmediumvsInklinglow Step 3.5 FlashmediumvsQwen3.5-Flashnone Step 3.5 FlashmediumvsGemini 3.1 Flash Litenone Step 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20none Step 3.5 Flashmediumvsgpt-oss-120bmedium Step 3.5 FlashmediumvsQwen3.5-35B-A3Bnone Step 3.5 FlashmediumvsGemini 3 Flash Previewmedium Step 3.5 FlashmediumvsGemini 3.5 Flashhigh Step 3.5 FlashmediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Step 3.5 FlashmediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.5	10.0
निर्देश पालन	8.5	6.8
पहेली समाधान	5.3	10.0
टूल कॉलिंग	10.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#34 Step 3.5 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल