नेविगेशन
AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

Qwen: Qwen3.5-Flash vs StepFun: Step 3.5 Flash

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-06

मेट्रिक Qwen: Qwen3.5-Flash none रिलीज़: 2026-02-24 StepFun: Step 3.5 Flash medium रिलीज़: 2026-02-01 निःशुल्क उपलब्ध
रैंक #37 #13
औसत स्कोर 5.2 7.4
संगति 9.6 9.1
प्रति परिणाम लागत 0.077 0.000
कुल लागत $0.006 $0.000
सही परीक्षण
प्रति प्रयास पास दर 45.8% 68.8%
अस्थिर टेस्ट 1 2
कुल रन 48 48
आउटपुट टोकन 3,774 71,452
रीजनिंग टोकन 0 155,147
प्रतिक्रिया समय (औसत) 3.54s 29.10s
प्रतिक्रिया समय (अधिकतम) 13.73s 170.45s
प्रतिक्रिया समय (कुल) 56.70s 290.96s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 2.3 7.8 11.1% 1 1.62s 687 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 18.54s 13,924 17,208
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 10.0 10.0 0.0% 0 6.22s 1,794 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 1,176 12,984
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 9.9 10.0 100.0% 0 1.57s 243 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 600 13,886
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 7.0 10.0 66.7% 0 905ms 15 0
StepFun: Step 3.5 Flash 4.0 7.2 44.4% 1 170.45s 45,350 90,436
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 10.0 10.0 100.0% 0 803ms 100 0
StepFun: Step 3.5 Flash 6.0 10.0 0.0% 0 6.54s 2,214 2,584
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 5.0 10.0 50.0% 0 8.81s 63 0
StepFun: Step 3.5 Flash 9.0 6.8 83.3% 1 4.98s 2,284 3,412
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 1.3 10.0 0.0% 0 5.90s 608 0
StepFun: Step 3.5 Flash 4.0 10.0 33.3% 0 7.72s 5,629 10,835
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen: Qwen3.5-Flash 10.0 10.0 100.0% 0 3.67s 264 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 275 3,802

त्वरित तुलना

तुलना जोड़ी बदलें