नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Google: Gemma 4 31B

सारांश

Claude Opus 4.8 vs Gemma 4 31B benchmark तुलना: Claude Opus 4.8 average score में आगे है: 7.2 vs 6.3. Gemma 4 31B की benchmark लागत कम है: $0.033 vs $0.539. Claude Opus 4.8 तेज है: 3.47s vs 56.55s, pass rates 61.9% vs 69.8%.

अनुशंसित मॉडल: Claude Opus 4.8 - It has the best score here (7.2), while responding about 16.3x faster than Gemma 4 31B.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28 Gemma 4 31B Gemma 4 31B medium रिलीज़: 2026-04-02 निःशुल्क उपलब्ध
स्कोर 7.2 6.3
रैंक #57 #88
विश्वसनीयता 10.0 10.0
संगति 9.2 9.4
सही परीक्षण
प्रति प्रयास पास दर 61.9% 69.8%
अस्थिर टेस्ट 2 1
कुल रन 63 63
प्रति परिणाम लागत 4.485 0.257
कुल लागत $0.539 $0.033
इनपुट कीमत $5.000 / 1M $0.120 / 1M
आउटपुट कीमत $25.000 / 1M $0.350 / 1M
कुल इनपुट टोकन 67,104 17,957
आउटपुट टोकन 8,107 22,356
रीजनिंग टोकन 0 65,726
प्रतिक्रिया समय (औसत) 3.47s 56.55s
प्रतिक्रिया समय (अधिकतम) 17.73s 437.40s
प्रतिक्रिया समय (कुल) 72.90s 1074.41s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none
लागत
$0.053
समय
22.0s
टोकन
2,253 tok

#88 Gemma 4 31B

medium
लागत
$0.002
समय
45.7s
टोकन
2,696 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 834 1,472 0
Gemma 4 31B 10.0 10.0 100.0% 0 12.89s 816 962 2,046
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.5 10.0 33.3% 0 3.29s 10,590 1,332 0
Gemma 4 31B 4.3 5.8 22.2% 1 219.76s 5,568 11,098 33,212
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 29,658 3,259 0
Gemma 4 31B 3.0 10.0 0.0% 0 0ms 0 0 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 10,503 308 0
Gemma 4 31B 10.0 10.0 100.0% 0 21.11s 8,334 1,822 2,951
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 975 61 0
Gemma 4 31B 7.7 10.0 66.7% 0 38.48s 876 4,349 8,985
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 708 230 0
Gemma 4 31B 10.0 10.0 100.0% 0 9.57s 567 105 888
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 909 95 0
Gemma 4 31B 10.0 10.0 100.0% 0 12.76s 777 533 2,035
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 894 783 0
Gemma 4 31B 9.9 10.0 100.0% 0 26.91s 801 1,795 5,595
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 11,775 355 0
Gemma 4 31B 3.0 10.0 0.0% 0 0ms 0 0 0
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 258 212 0
Gemma 4 31B 3.0 10.0 0.0% 0 90.14s 218 1,692 10,014

त्वरित तुलना

तुलना जोड़ी बदलें