नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

OpenAI: GPT-5.4 Mini vs StepFun: Step 3.7 Flash

सारांश

GPT-5.4 Mini vs Step 3.7 Flash benchmark तुलना: Step 3.7 Flash average score में आगे है: 8.5 vs 8.0. Step 3.7 Flash की benchmark लागत कम है: $0.376 vs $0.526. Step 3.7 Flash तेज है: 20.35s vs 22.34s, pass rates 73.0% vs 73.0%.

अनुशंसित मॉडल: Step 3.7 Flash - It has the strongest score in this comparison (8.5) and the best overall balance of cost and response time across all 2 models.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक GPT-5.4 Mini GPT-5.4 Mini medium रिलीज़: 2026-03-17 Step 3.7 Flash Step 3.7 Flash medium रिलीज़: 2026-05-29
स्कोर 8.0 8.5
रैंक #30 #23
विश्वसनीयता 10.0 9.9
संगति 8.0 9.3
सही परीक्षण
प्रति प्रयास पास दर 73.0% 73.0%
अस्थिर टेस्ट 5 2
कुल रन 63 61
प्रति परिणाम लागत 4.381 2.686
कुल लागत $0.526 $0.376
इनपुट कीमत $0.750 / 1M $0.200 / 1M
आउटपुट कीमत $4.500 / 1M $1.150 / 1M
कुल इनपुट टोकन 34,116 39,981
आउटपुट टोकन 2,181 319,958
रीजनिंग टोकन 108,937 0
प्रतिक्रिया समय (औसत) 22.34s 20.35s
प्रतिक्रिया समय (अधिकतम) 138.75s 113.98s
प्रतिक्रिया समय (कुल) 469.20s 427.42s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 GPT-5.4 Mini

medium
Cost
$0.056
Time
95.5s
Tokens
12,464 tok

#23 Step 3.7 Flash

medium
Cost
$0.006
Time
46.2s
Tokens
4,466 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 8.6 7.9 91.7% 1 4.05s 606 296 2,876
Step 3.7 Flash 8.7 7.9 91.7% 1 9.65s 756 32,185 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 8.4 7.4 88.9% 1 57.87s 7,305 467 40,902
Step 3.7 Flash 8.8 7.8 88.9% 1 27.42s 7,437 44,797 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 10.0 10.0 100.0% 0 17.81s 11,019 317 4,317
Step 3.7 Flash 10.0 10.0 100.0% 0 9.06s 13,683 7,106 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 10.0 10.0 100.0% 0 2.43s 7,140 234 650
Step 3.7 Flash 10.0 10.0 100.0% 0 2.75s 7,398 3,020 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 4.1 4.4 44.5% 2 65.31s 619 60 43,286
Step 3.7 Flash 7.7 10.0 66.7% 0 48.27s 708 70,347 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 4.5 10.0 0.0% 0 3.72s 477 150 510
Step 3.7 Flash 4.0 10.0 0.0% 0 6.85s 525 3,987 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 9.8 10.0 100.0% 0 2.13s 660 96 1,185
Step 3.7 Flash 9.8 10.0 100.0% 0 1.83s 735 2,166 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 7.8 10.0 66.7% 0 4.37s 642 278 2,443
Step 3.7 Flash 5.7 9.9 33.3% 0 6.19s 756 15,071 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 4.7 1.6 66.7% 1 9.62s 5,453 251 2,594
Step 3.7 Flash 10.0 10.0 100.0% 0 4.16s 7,746 2,115 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 3.0 10.0 0.0% 0 30.10s 195 32 10,174
Step 3.7 Flash 3.0 10.0 0.0% 0 113.98s 237 139,164 0

त्वरित तुलना

तुलना जोड़ी बदलें