नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

OpenAI: GPT-5.5 vs StepFun: Step 3.7 Flash

सारांश

GPT-5.5 vs Step 3.7 Flash benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 8.5. Step 3.7 Flash की benchmark लागत कम है: $0.376 vs $0.907. GPT-5.5 तेज है: 9.76s vs 20.35s, pass rates 85.7% vs 73.0%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.3), while responding about 2.1x faster than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24 Step 3.7 Flash Step 3.7 Flash medium रिलीज़: 2026-05-29
स्कोर 9.3 8.5
रैंक #5 #23
विश्वसनीयता 10.0 9.9
संगति 10.0 9.3
सही परीक्षण
प्रति प्रयास पास दर 85.7% 73.0%
अस्थिर टेस्ट 0 2
कुल रन 63 61
प्रति परिणाम लागत 5.035 2.686
कुल लागत $0.907 $0.376
इनपुट कीमत $5.000 / 1M $0.200 / 1M
आउटपुट कीमत $30.000 / 1M $1.150 / 1M
कुल इनपुट टोकन 34,209 39,981
आउटपुट टोकन 2,046 319,958
रीजनिंग टोकन 22,460 0
प्रतिक्रिया समय (औसत) 9.76s 20.35s
प्रतिक्रिया समय (अधिकतम) 56.19s 113.98s
प्रतिक्रिया समय (कुल) 204.92s 427.42s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#5 GPT-5.5

low
Cost
$0.068
Time
37.0s
Tokens
2,339 tok

#23 Step 3.7 Flash

medium
Cost
$0.006
Time
46.2s
Tokens
4,466 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.41s 606 238 1,020
Step 3.7 Flash 8.7 7.9 91.7% 1 9.65s 756 32,185 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 15.04s 7,302 423 6,402
Step 3.7 Flash 8.8 7.8 88.9% 1 27.42s 7,437 44,797 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 9.56s 11,019 303 717
Step 3.7 Flash 10.0 10.0 100.0% 0 9.06s 13,683 7,106 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 3.28s 7,140 228 157
Step 3.7 Flash 10.0 10.0 100.0% 0 2.75s 7,398 3,020 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 5.3 10.0 33.3% 0 28.05s 723 69 11,609
Step 3.7 Flash 7.7 10.0 66.7% 0 48.27s 708 70,347 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 5.17s 477 133 245
Step 3.7 Flash 4.0 10.0 0.0% 0 6.85s 525 3,987 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 9.9 10.0 100.0% 0 3.74s 660 93 415
Step 3.7 Flash 9.8 10.0 100.0% 0 1.83s 735 2,166 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.74s 642 279 954
Step 3.7 Flash 5.7 9.9 33.3% 0 6.19s 756 15,071 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.96s 5,445 250 101
Step 3.7 Flash 10.0 10.0 100.0% 0 4.16s 7,746 2,115 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 3.0 10.0 0.0% 0 10.06s 195 30 840
Step 3.7 Flash 3.0 10.0 0.0% 0 113.98s 237 139,164 0

त्वरित तुलना

तुलना जोड़ी बदलें