#34

Step 3.5 Flash

Stepfun प्रकाशन: 2026-02-01 चाचणी तारीख: 2026-04-11 00:35 stepfun/step-3.5-flash::medium

(medium) (none)

सारांश

Step 3.5 Flash AI BENCHY वर 7.9 स्कोर करते आणि #34 वर आहे. याची reliability लागू नाही, pass rate 70.6%, एकूण खर्च $0.000, आणि सरासरी response time 26.78s आहे.

Step 3.5 Flash खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर कोडी सोडवणे हा सर्वात कमकुवत भाग आहे, rank #18. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

7.9

सुसंगतता

9.1

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.000

एकूण आउटपुट टोकन्स

227,511

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.100 / 1M

आउटपुट किंमत

$0.300 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 6

प्रति प्रयत्न पास दर: 70.6%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

26.78s

प्रतिसाद वेळ (कमाल): 170.45s

प्रतिसाद वेळ (एकूण): 294.58s

सूचनांचे पालन केले नाही: 3 चुकीचे उत्तर: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Step 3.5 Flash

medium

खर्च: $0.008
वेळ: 277.1s
टोकन्स: 23,695 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 23:25 नवीन चाचणी जोडली	6.0	9.2	$0.108 ↑	तुलना करा
2026-06-04 14:12 नवीन चाचणी जोडली	7.2	8.9	$0.070 ↑	तुलना करा
2026-05-22 00:30 सूट बदलला	7.4	9.3	$0.015	तुलना करा
2026-05-08 15:30 सूट बदलला	7.6	10.0	$0.011	तुलना करा
2026-04-11 00:35 पहिली नोंदलेली रन	7.9	लागू नाही	$0.000	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 00:35 · पहिली नोंदलेली रन	7.9	9.1	लागू नाही	11/17	2	227,511	$0.000	26.78s
2026-05-08 15:30 · सूट बदलला	7.6	9.2	10.0	11/18	2	251,708	$0.011	41.66s
फरक	+0.3	-0.1		0	0	-24197	-$0.011	-14879ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Step 3.5 FlashmediumvsInklinglow Step 3.5 FlashmediumvsQwen3.5-Flashnone Step 3.5 FlashmediumvsGemini 3.1 Flash Litenone Step 3.5 FlashmediumvsQwen3.5 Plus 2026-04-20none Step 3.5 Flashmediumvsgpt-oss-120bmedium Step 3.5 FlashmediumvsQwen3.5-35B-A3Bnone Step 3.5 FlashmediumvsGemini 3 Flash Previewmedium Step 3.5 FlashmediumvsGemini 3.5 Flashhigh Step 3.5 FlashmediumvsNemotron 3 Ultramediumमोफत उपलब्ध Step 3.5 FlashmediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.5	10.0
सूचनांचे पालन	8.5	6.8
कोडी सोडवणे	5.3	10.0
टूल कॉलिंग	10.0	10.0

Step 3.5 Flash

Hamster playing table tennis

#34 Step 3.5 Flash

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स