नेविगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

OpenAI: GPT-5.5 vs StepFun: Step 3.7 Flash

सारांश

GPT-5.5 vs Step 3.7 Flash benchmark तुलना: GPT-5.5 average score में आगे है: 9.0 vs 7.1. Step 3.7 Flash की benchmark लागत कम है: $1.148 vs $3.679. GPT-5.5 तेज है: 37.98s vs 64.46s, pass rates 87.3% vs 63.5%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.0), while responding about 1.7x faster than Step 3.7 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक GPT-5.5 GPT-5.5 medium रिलीज़: 2026-04-24 Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29
स्कोर 9.0 7.1
रैंक #9 #63
विश्वसनीयता 10.0 10.0
संगति 8.9 8.2
सही परीक्षण
प्रति प्रयास पास दर 87.3% 63.5%
अस्थिर टेस्ट 3 4
कुल रन 63 63
प्रति परिणाम लागत 21.638 10.434
कुल लागत $3.679 $1.148
इनपुट कीमत $5.000 / 1M $0.200 / 1M
आउटपुट कीमत $30.000 / 1M $1.150 / 1M
कुल इनपुट टोकन 34,212 38,391
आउटपुट टोकन 1,985 991,355
रीजनिंग टोकन 114,925 0
प्रतिक्रिया समय (औसत) 37.98s 64.46s
प्रतिक्रिया समय (अधिकतम) 332.10s 364.99s
प्रतिक्रिया समय (कुल) 797.60s 1353.57s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#9 GPT-5.5

medium
लागत
$0.112
समय
71.9s
टोकन
3,807 tok

#63 Step 3.7 Flash

high
लागत
$0.007
समय
63.6s
टोकन
6,030 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.66s 606 250 1,335
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 8.8 7.8 88.9% 1 59.77s 7,305 362 24,959
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 19.29s 11,019 312 2,841
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.18s 7,140 234 593
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 5.3 7.2 44.4% 1 164.14s 723 67 79,625
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 4.16s 477 138 223
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 3.36s 660 93 538
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 6.76s 642 241 2,225
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 10.0 10.0 100.0% 0 10.57s 5,445 258 832
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
GPT-5.5 2.8 1.6 33.3% 1 37.86s 195 30 1,754
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0

त्वरित तुलना

तुलना जोड़ी बदलें