नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

Qwen: Qwen3.7 Plus vs StepFun: Step 3.7 Flash

सारांश

Qwen3.7 Plus vs Step 3.7 Flash benchmark तुलना: Step 3.7 Flash average score में आगे है: 8.5 vs 8.2. Qwen3.7 Plus की benchmark लागत कम है: $0.177 vs $0.376. Step 3.7 Flash तेज है: 20.35s vs 38.95s, pass rates 77.8% vs 73.0%.

अनुशंसित मॉडल: Qwen3.7 Plus - Its score stays close to the best score here (8.2 vs 8.5), while costing about 2.1x less than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक Qwen3.7 Plus Qwen3.7 Plus medium रिलीज़: 2026-06-03 Step 3.7 Flash Step 3.7 Flash medium रिलीज़: 2026-05-29
स्कोर 8.2 8.5
रैंक #25 #20
विश्वसनीयता 10.0 9.9
संगति 9.1 9.3
सही परीक्षण
प्रति प्रयास पास दर 77.8% 73.0%
अस्थिर टेस्ट 2 2
कुल रन 63 61
प्रति परिणाम लागत 1.474 2.686
कुल लागत $0.177 $0.376
इनपुट कीमत $0.320 / 1M $0.200 / 1M
आउटपुट कीमत $1.280 / 1M $1.150 / 1M
कुल इनपुट टोकन 40,939 39,981
आउटपुट टोकन 2,125 319,958
रीजनिंग टोकन 125,754 0
प्रतिक्रिया समय (औसत) 38.95s 20.35s
प्रतिक्रिया समय (अधिकतम) 178.04s 113.98s
प्रतिक्रिया समय (कुल) 817.85s 427.42s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#25 Qwen3.7 Plus

medium
लागत
$0.018
समय
193.2s
टोकन
10,821 tok

#20 Step 3.7 Flash

medium
लागत
$0.006
समय
46.2s
टोकन
4,466 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 8.58s 672 195 5,065
Step 3.7 Flash 8.7 7.9 91.7% 1 9.65s 756 32,185 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 6.1 6.6 55.6% 1 108.60s 6,472 414 43,576
Step 3.7 Flash 8.8 7.8 88.9% 1 27.42s 7,437 44,797 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 65.24s 14,934 366 10,132
Step 3.7 Flash 10.0 10.0 100.0% 0 9.06s 13,683 7,106 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 21.75s 7,782 270 6,713
Step 3.7 Flash 10.0 10.0 100.0% 0 2.75s 7,398 3,020 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 3.6 7.2 22.2% 1 45.35s 771 57 27,073
Step 3.7 Flash 7.7 10.0 66.7% 0 48.27s 708 70,347 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 25.48s 516 123 3,998
Step 3.7 Flash 4.0 10.0 0.0% 0 6.85s 525 3,987 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 16.13s 699 102 5,013
Step 3.7 Flash 9.8 10.0 100.0% 0 1.83s 735 2,166 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 16.38s 696 280 7,312
Step 3.7 Flash 5.7 9.9 33.3% 0 6.19s 756 15,071 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 15.02s 8,193 292 1,831
Step 3.7 Flash 10.0 10.0 100.0% 0 4.16s 7,746 2,115 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 3.0 10.0 0.0% 0 91.07s 204 26 15,041
Step 3.7 Flash 3.0 10.0 0.0% 0 113.98s 237 139,164 0

त्वरित तुलना

तुलना जोड़ी बदलें