नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

Anthropic: Claude Sonnet 5 vs StepFun: Step 3.7 Flash

सारांश

Claude Sonnet 5 vs Step 3.7 Flash benchmark तुलना: Claude Sonnet 5 average score में आगे है: 7.9 vs 7.1. Claude Sonnet 5 की benchmark लागत कम है: $0.550 vs $1.148. Claude Sonnet 5 तेज है: 9.94s vs 64.46s, pass rates 79.4% vs 63.5%.

अनुशंसित मॉडल: Claude Sonnet 5 - It has the best score here (7.9), while costing about 2.1x less than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-30

मेट्रिक Claude Sonnet 5 Claude Sonnet 5 medium रिलीज़: 2026-06-30 Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29
स्कोर 7.9 7.1
रैंक #30 #65
विश्वसनीयता 10.0 10.0
संगति 9.0 8.2
सही परीक्षण
प्रति प्रयास पास दर 79.4% 63.5%
अस्थिर टेस्ट 3 4
कुल रन 63 63
प्रति परिणाम लागत 3.662 10.434
कुल लागत $0.550 $1.148
इनपुट कीमत $2.000 / 1M $0.200 / 1M
आउटपुट कीमत $10.000 / 1M $1.150 / 1M
कुल इनपुट टोकन 67,416 38,391
आउटपुट टोकन 34,012 991,355
रीजनिंग टोकन 7,673 0
प्रतिक्रिया समय (औसत) 9.94s 64.46s
प्रतिक्रिया समय (अधिकतम) 56.94s 364.99s
प्रतिक्रिया समय (कुल) 208.71s 1353.57s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium
लागत
$0.007
समय
6.4s
टोकन
832 tok

#65 Step 3.7 Flash

high
लागत
$0.007
समय
63.6s
टोकन
6,030 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 10.0 10.0 100.0% 0 3.80s 834 1,220 446
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 9.0 7.9 88.9% 1 17.28s 10,590 13,153 2,379
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 4.5 2.1 66.7% 1 37.01s 29,394 4,848 2,170
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 10.0 10.0 100.0% 0 3.16s 10,503 312 0
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 7.7 10.0 66.7% 0 20.38s 975 12,140 1,994
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 4.8 3.2 33.3% 1 4.32s 708 264 0
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 9.9 10.0 100.0% 0 3.10s 909 318 269
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 7.7 10.0 66.7% 0 2.98s 894 407 121
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 10.0 10.0 100.0% 0 10.70s 12,351 433 90
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Sonnet 5 3.0 10.0 0.0% 0 7.06s 258 917 204
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0

त्वरित तुलना

तुलना जोड़ी बदलें