नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

OpenAI: GPT-5.4 Mini vs StepFun: Step 3.7 Flash

सारांश

GPT-5.4 Mini vs Step 3.7 Flash benchmark तुलना: GPT-5.4 Mini average score में आगे है: 8.0 vs 7.1. GPT-5.4 Mini की benchmark लागत कम है: $0.526 vs $1.148. GPT-5.4 Mini तेज है: 22.34s vs 64.46s, pass rates 73.0% vs 63.5%.

अनुशंसित मॉडल: GPT-5.4 Mini - It has the best score here (8.0), while costing about 2.2x less than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक GPT-5.4 Mini GPT-5.4 Mini medium रिलीज़: 2026-03-17 Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29
स्कोर 8.0 7.1
रैंक #30 #63
विश्वसनीयता 10.0 10.0
संगति 8.0 8.2
सही परीक्षण
प्रति प्रयास पास दर 73.0% 63.5%
अस्थिर टेस्ट 5 4
कुल रन 63 63
प्रति परिणाम लागत 4.381 10.434
कुल लागत $0.526 $1.148
इनपुट कीमत $0.750 / 1M $0.200 / 1M
आउटपुट कीमत $4.500 / 1M $1.150 / 1M
कुल इनपुट टोकन 34,116 38,391
आउटपुट टोकन 2,181 991,355
रीजनिंग टोकन 108,937 0
प्रतिक्रिया समय (औसत) 22.34s 64.46s
प्रतिक्रिया समय (अधिकतम) 138.75s 364.99s
प्रतिक्रिया समय (कुल) 469.20s 1353.57s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 GPT-5.4 Mini

medium
Cost
$0.056
Time
95.5s
Tokens
12,464 tok

#63 Step 3.7 Flash

high
Cost
$0.007
Time
63.6s
Tokens
6,030 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 8.6 7.9 91.7% 1 4.05s 606 296 2,876
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 8.4 7.4 88.9% 1 57.87s 7,305 467 40,902
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 10.0 10.0 100.0% 0 17.81s 11,019 317 4,317
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 10.0 10.0 100.0% 0 2.43s 7,140 234 650
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 4.1 4.4 44.5% 2 65.31s 619 60 43,286
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 4.5 10.0 0.0% 0 3.72s 477 150 510
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 9.8 10.0 100.0% 0 2.13s 660 96 1,185
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 7.8 10.0 66.7% 0 4.37s 642 278 2,443
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 4.7 1.6 66.7% 1 9.62s 5,453 251 2,594
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.4 Mini 3.0 10.0 0.0% 0 30.10s 195 32 10,174
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0

त्वरित तुलना

तुलना जोड़ी बदलें