नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

StepFun: Step 3.7 Flash vs Z.ai: GLM 5.1

सारांश

Step 3.7 Flash vs GLM 5.1 benchmark तुलना: average score लगभग बराबर है: 7.1 vs 7.1. GLM 5.1 की benchmark लागत कम है: $0.292 vs $1.148. GLM 5.1 तेज है: 33.67s vs 64.46s, pass rates 63.5% vs 68.3%.

अनुशंसित मॉडल: GLM 5.1 - It has the best score here (7.1), while costing about 3.9x less than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29 GLM 5.1 GLM 5.1 medium रिलीज़: 2026-04-07
स्कोर 7.1 7.1
रैंक #63 #64
विश्वसनीयता 10.0 6.7
संगति 8.2 8.3
सही परीक्षण
प्रति प्रयास पास दर 63.5% 68.3%
अस्थिर टेस्ट 4 4
कुल रन 63 63
प्रति परिणाम लागत 10.434 2.496
कुल लागत $1.148 $0.292
इनपुट कीमत $0.200 / 1M $0.980 / 1M
आउटपुट कीमत $1.150 / 1M $3.080 / 1M
कुल इनपुट टोकन 38,391 32,995
आउटपुट टोकन 991,355 11,655
रीजनिंग टोकन 0 75,421
प्रतिक्रिया समय (औसत) 64.46s 33.67s
प्रतिक्रिया समय (अधिकतम) 364.99s 172.60s
प्रतिक्रिया समय (कुल) 1353.57s 673.41s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Step 3.7 Flash

high
Cost
$0.007
Time
63.6s
Tokens
6,030 tok

#64 GLM 5.1

medium
Invalid SVG
Cost
$0.000
Time
300.0s
Tokens
0 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
GLM 5.1 10.0 10.0 100.0% 0 8.31s 555 401 5,122
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
GLM 5.1 4.6 3.7 44.5% 2 109.63s 5,702 4,871 37,826
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
GLM 5.1 9.5 10.0 100.0% 0 43.11s 17,298 327 4,206
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
GLM 5.1 10.0 10.0 100.0% 0 9.33s 7,107 991 4,552
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
GLM 5.1 5.3 10.0 33.3% 0 29.77s 489 969 11,314
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
GLM 5.1 10.0 10.0 100.0% 0 20.95s 477 2,875 2,875
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
GLM 5.1 6.4 5.8 66.7% 1 7.47s 634 204 1,617
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
GLM 5.1 8.2 7.2 88.9% 1 31.64s 609 935 5,730
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0
GLM 5.1 3.0 10.0 0.0% 0 29.40s 124 82 2,179

त्वरित तुलना

तुलना जोड़ी बदलें