नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

StepFun: Step 3.7 Flash vs Z.ai: GLM 5.2

सारांश

Step 3.7 Flash vs GLM 5.2 benchmark तुलना: average score लगभग बराबर है: 7.1 vs 7.1. GLM 5.2 की benchmark लागत कम है: $0.076 vs $1.148. GLM 5.2 तेज है: 6.34s vs 64.46s, pass rates 63.5% vs 60.3%.

अनुशंसित मॉडल: GLM 5.2 - It has the best score here (7.1), while costing about 15.2x less than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-17

मेट्रिक Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29 GLM 5.2 GLM 5.2 none रिलीज़: 2026-06-17
स्कोर 7.1 7.1
रैंक #63 #61
विश्वसनीयता 10.0 9.9
संगति 8.2 9.6
सही परीक्षण
प्रति प्रयास पास दर 63.5% 60.3%
अस्थिर टेस्ट 4 1
कुल रन 63 63
प्रति परिणाम लागत 10.434 0.628
कुल लागत $1.148 $0.076
इनपुट कीमत $0.200 / 1M $1.400 / 1M
आउटपुट कीमत $1.150 / 1M $4.400 / 1M
कुल इनपुट टोकन 38,391 38,671
आउटपुट टोकन 991,355 4,817
रीजनिंग टोकन 0 0
प्रतिक्रिया समय (औसत) 64.46s 6.34s
प्रतिक्रिया समय (अधिकतम) 364.99s 20.69s
प्रतिक्रिया समय (कुल) 1353.57s 133.19s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Step 3.7 Flash

high
Cost
$0.007
Time
63.6s
Tokens
6,030 tok

#61 GLM 5.2

none
Invalid SVG
Cost
$0.033
Time
87.7s
Tokens
7,455 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
GLM 5.2 8.3 10.0 75.0% 0 3.70s 567 313 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
GLM 5.2 3.7 9.5 0.0% 0 7.55s 7,263 1,958 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
GLM 5.2 10.0 10.0 100.0% 0 20.69s 14,296 1,489 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
GLM 5.2 10.0 10.0 100.0% 0 7.17s 7,113 204 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
GLM 5.2 5.3 10.0 33.3% 0 6.50s 696 27 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
GLM 5.2 6.1 3.1 66.7% 1 4.42s 480 82 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
GLM 5.2 9.8 10.0 100.0% 0 3.84s 642 66 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
GLM 5.2 7.7 10.0 66.7% 0 3.31s 618 265 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
GLM 5.2 10.0 10.0 100.0% 0 15.76s 6,807 400 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0
GLM 5.2 3.0 10.0 0.0% 0 3.41s 189 13 0

त्वरित तुलना

तुलना जोड़ी बदलें