#58

Step 3.5 Flash

Stepfun रिलीज़: 2026-02-01 परीक्षण किया गया: 2026-05-22 00:30 stepfun/step-3.5-flash::medium

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY पर 7.4 स्कोर करता है और #58 पर है। इसकी reliability 9.3, pass rate 65.8%, कुल लागत $0.015, और औसत response time 43.29s है।

Step 3.5 Flash को अलग क्या बनाता है: यह एंटी-एआई ट्रिक्स में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि कोडिंग इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

7.4

संगति

8.7

विश्वसनीयता

9.3

कुल लागत (वर्तमान कीमत)

$0.015

कुल आउटपुट टोकन

263,806

कुल इनपुट टोकन

इनपुट कीमत

$0.090 / 1M

आउटपुट कीमत

$0.300 / 1M

सही परीक्षण

गलत टेस्ट: 8

प्रति प्रयास पास दर: 65.8%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

43.29s

प्रतिक्रिया समय (अधिकतम): 170.45s

प्रतिक्रिया समय (कुल): 562.74s

गलत उत्तर: 4 निर्देशों का पालन नहीं किया: 3 कोई उत्तर नहीं: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 Step 3.5 Flash

medium

लागत: $0.008
समय: 277.1s
टोकन: 23,695 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:25 नया टेस्ट जोड़ा गया	6.0	9.2	$0.108 ↑	तुलना करें
2026-06-04 14:12 नया टेस्ट जोड़ा गया	7.2	8.9	$0.070 ↑	तुलना करें
2026-05-22 00:30 सूट बदला गया	7.4	9.3	$0.015	वर्तमान रन
2026-05-08 15:30 सूट बदला गया	7.6	10.0	$0.011	तुलना करें
2026-04-11 00:35 पहला दर्ज रन	7.9	लागू नहीं	$0.000	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-22 00:30 · सूट बदला गया	7.4	8.7	9.3	11/19	3	263,806	0	$0.015	43.29s
2026-06-04 14:12 · नया टेस्ट जोड़ा गया	7.2	9.1	8.9	11/20	2	287,560	34,431	$0.070	72.53s
अंतर	+0.2	-0.4	+0.4	0	+1	-23754	-34431	-$0.055	-29246ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Step 3.5 FlashmediumvsInklinglow Step 3.5 FlashmediumvsQwen3.5-Flashnone Step 3.5 FlashmediumvsGemini 3.1 Flash Litenone Step 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20none Step 3.5 Flashmediumvsgpt-oss-120bmedium Step 3.5 FlashmediumvsQwen3.5-35B-A3Bnone Step 3.5 FlashmediumvsGemini 3 Flash Previewmedium Step 3.5 FlashmediumvsGemini 3.5 Flashhigh Step 3.5 FlashmediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Step 3.5 FlashmediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	3.0	6.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.5	10.0
निर्देश पालन	8.5	6.8
पहेली समाधान	5.3	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#58 Step 3.5 Flash

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल