AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Google: Gemma 4 31B

सारांश

Claude Opus 4.8 vs Gemma 4 31B benchmark तुलना: Claude Opus 4.8 average score में आगे है: 7.2 vs 6.3. Gemma 4 31B की benchmark लागत कम है: $0.033 vs $0.539. Claude Opus 4.8 तेज है: 3.47s vs 56.55s, pass rates 61.9% vs 69.8%.

अनुशंसित मॉडल: Claude Opus 4.8 - It has the best score here (7.2), while responding about 16.3x faster than Gemma 4 31B.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Gemma 4 31B Gemma 4 31B medium रिलीज़: 2026-04-02 निःशुल्क उपलब्ध

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Gemma 4 31B Gemma 4 31B medium रिलीज़: 2026-04-02 निःशुल्क उपलब्ध
स्कोर	7.2	6.3
रैंक	#57	#88
विश्वसनीयता	10.0	10.0
संगति	9.2	9.4
सही परीक्षण
प्रति प्रयास पास दर	61.9%	69.8%
अस्थिर टेस्ट	2	1
कुल रन	63	63
प्रति परिणाम लागत	4.485	0.257
कुल लागत	$0.539	$0.033
इनपुट कीमत	$5.000 / 1M	$0.120 / 1M
आउटपुट कीमत	$25.000 / 1M	$0.350 / 1M
कुल इनपुट टोकन	67,104	17,957
आउटपुट टोकन	8,107	22,356
रीजनिंग टोकन	0	65,726
प्रतिक्रिया समय (औसत)	3.47s	56.55s
प्रतिक्रिया समय (अधिकतम)	17.73s	437.40s
प्रतिक्रिया समय (कुल)	72.90s	1074.41s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none

लागत: $0.053
समय: 22.0s
टोकन: 2,253 tok

#88 Gemma 4 31B

medium

लागत: $0.002
समय: 45.7s
टोकन: 2,696 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	816	962	2,046

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Gemma 4 31B	4.3	5.8	22.2%	1		219.76s	5,568	11,098	33,212

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	8,334	1,822	2,951

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	876	4,349	8,985

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	567	105	888

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	777	533	2,035

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Gemma 4 31B	9.9	10.0	100.0%	0		26.91s	801	1,795	5,595

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Gemma 4 31B	3.0	10.0	0.0%	0		90.14s	218	1,692	10,014

त्वरित तुलना

तुलना जोड़ी बदलें

Gemma 4 31Bmediumनिःशुल्क उपलब्धvsGPT-5.5none Claude Opus 4.8nonevsGemma 4 26B A4Bmediumनिःशुल्क उपलब्ध Seed-2.0-LitenonevsGemma 4 31Bmediumनिःशुल्क उपलब्ध Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium Claude Opus 4.8nonevsSeed-2.0-Minimedium Claude Opus 4.8nonevsKimi K2.7 Codemedium Gemma 4 31Bmediumनिःशुल्क उपलब्धvsQwen3.5-Flashnone Claude Opus 4.8nonevsDeepSeek V3.2medium