AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#72

Step 3.7 Flash

Stepfun प्रकाशन: 2026-05-29 चाचणी तारीख: 2026-06-04 14:10 stepfun/step-3.7-flash::high
(high) (medium) (low)

सारांश

Step 3.7 Flash AI BENCHY वर 7.0 स्कोर करते आणि #72 वर आहे. याची reliability 10.0, pass rate 63.5%, एकूण खर्च $1.148, आणि सरासरी response time 64.46s आहे.

Step 3.7 Flash खास का आहे: हे अँटी-एआय युक्त्या मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर कोडिंग हा सर्वात कमकुवत भाग आहे, rank #15.

सुसंगतता

8.2

एकूण आउटपुट टोकन्स

991,355

एकूण इनपुट टोकन्स

38,391

इनपुट किंमत

$0.200 / 1M

आउटपुट किंमत

$1.150 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 63.5%

अस्थिर चाचण्या

4

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

64.46s

प्रतिसाद वेळ (कमाल): 364.99s

प्रतिसाद वेळ (एकूण): 1353.57s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#72 Step 3.7 Flash

high
Cost
$0.007
Time
63.6s
Tokens
6,030 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 14:10 नवीन चाचणी जोडली 7.0 10.0 $1.148 सध्याची रन
2026-05-29 11:53 पहिला रन 7.1 9.9 $0.960 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $0.200 / 1M $1.150 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 10.0 10.0
कोडिंग 4.0 6.0
संयुक्त 10.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 4.1 4.4
Samanya Buddhimatta 5.5 10.0
सूचनांचे पालन 9.8 10.0
कोडी सोडवणे 5.3 7.2
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स