नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Google: Gemma 4 31B vs StepFun: Step 3.5 Flash

सारांश

Gemma 4 31B vs Step 3.5 Flash benchmark तुलना: Step 3.5 Flash average score में आगे है: 6.6 vs 6.3. Gemma 4 31B की benchmark लागत कम है: $0.033 vs $0.070. Gemma 4 31B तेज है: 56.55s vs 72.53s, pass rates 69.8% vs 54.0%.

अनुशंसित मॉडल: Gemma 4 31B - Its score stays close to the best score here (6.3 vs 6.6), while costing about 2.1x less than Step 3.5 Flash.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक Gemma 4 31B Gemma 4 31B medium रिलीज़: 2026-04-02 निःशुल्क उपलब्ध Step 3.5 Flash Step 3.5 Flash medium रिलीज़: 2026-02-01
स्कोर 6.3 6.6
रैंक #88 #80
विश्वसनीयता 10.0 10.0
संगति 9.4 8.9
सही परीक्षण
प्रति प्रयास पास दर 69.8% 54.0%
अस्थिर टेस्ट 1 1
कुल रन 63 60
प्रति परिणाम लागत 0.257 0.198
कुल लागत $0.033 $0.070
इनपुट कीमत $0.120 / 1M $0.090 / 1M
आउटपुट कीमत $0.350 / 1M $0.300 / 1M
कुल इनपुट टोकन 17,957 34,431
आउटपुट टोकन 22,356 91,587
रीजनिंग टोकन 65,726 195,973
प्रतिक्रिया समय (औसत) 56.55s 72.53s
प्रतिक्रिया समय (अधिकतम) 437.40s 453.94s
प्रतिक्रिया समय (कुल) 1074.41s 1015.47s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#88 Gemma 4 31B

medium
लागत
$0.002
समय
45.7s
टोकन
2,696 tok

#80 Step 3.5 Flash

medium
लागत
$0.008
समय
277.1s
टोकन
23,695 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 10.0 10.0 100.0% 0 12.89s 816 962 2,046
Step 3.5 Flash 10.0 10.0 100.0% 0 40.57s 694 20,391 24,176
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 4.3 5.8 22.2% 1 219.76s 5,568 11,098 33,212
Step 3.5 Flash 2.4 5.2 0.0% 0 258.38s 2,211 13,207 22,429
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 3.0 10.0 0.0% 0 0ms 0 0 0
Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 13,638 1,176 12,984
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 10.0 10.0 100.0% 0 21.11s 8,334 1,822 2,951
Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 7,368 600 13,886
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 7.7 10.0 66.7% 0 38.48s 876 4,349 8,985
Step 3.5 Flash 5.3 7.2 44.4% 1 170.45s 673 45,350 90,436
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 10.0 10.0 100.0% 0 9.57s 567 105 888
Step 3.5 Flash 5.5 10.0 0.0% 0 22.39s 509 240 3,506
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 10.0 10.0 100.0% 0 12.76s 777 533 2,035
Step 3.5 Flash 8.3 10.0 50.0% 0 4.78s 705 2,364 3,521
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 9.9 10.0 100.0% 0 26.91s 801 1,795 5,595
Step 3.5 Flash 5.3 10.0 33.3% 0 7.22s 711 5,630 10,861
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 3.0 10.0 0.0% 0 0ms 0 0 0
Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 7,701 275 3,802
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Gemma 4 31B 3.0 10.0 0.0% 0 90.14s 218 1,692 10,014
Step 3.5 Flash 3.0 10.0 0.0% 0 108.45s 221 2,354 10,372

त्वरित तुलना

तुलना जोड़ी बदलें