AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs Z.ai: GLM 5.2

सारांश

Claude Opus 4.8 vs GLM 5.2 benchmark तुलना: Claude Opus 4.8 average score में आगे है: 7.2 vs 7.1. GLM 5.2 की benchmark लागत कम है: $0.076 vs $0.539. Claude Opus 4.8 तेज है: 3.47s vs 6.34s, pass rates 61.9% vs 60.3%.

अनुशंसित मॉडल: GLM 5.2 - Its score stays close to the best score here (7.1 vs 7.2), while costing about 7.1x less than Claude Opus 4.8.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-17

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	GLM 5.2 GLM 5.2 none रिलीज़: 2026-06-17

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	GLM 5.2 GLM 5.2 none रिलीज़: 2026-06-17
स्कोर	7.2	7.1
रैंक	#57	#61
विश्वसनीयता	10.0	9.9
संगति	9.2	9.6
सही परीक्षण
प्रति प्रयास पास दर	61.9%	60.3%
अस्थिर टेस्ट	2	1
कुल रन	63	63
प्रति परिणाम लागत	4.485	0.628
कुल लागत	$0.539	$0.076
इनपुट कीमत	$5.000 / 1M	$1.400 / 1M
आउटपुट कीमत	$25.000 / 1M	$4.400 / 1M
कुल इनपुट टोकन	67,104	38,671
आउटपुट टोकन	8,107	4,817
रीजनिंग टोकन	0	0
प्रतिक्रिया समय (औसत)	3.47s	6.34s
प्रतिक्रिया समय (अधिकतम)	17.73s	20.69s
प्रतिक्रिया समय (कुल)	72.90s	133.19s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none

Cost: $0.053
Time: 22.0s
Tokens: 2,253 tok

#61 GLM 5.2

none

Invalid SVG

Cost: $0.033
Time: 87.7s
Tokens: 7,455 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
GLM 5.2	8.3	10.0	75.0%	0		3.70s	567	313	0

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
GLM 5.2	3.7	9.5	0.0%	0		7.55s	7,263	1,958	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
GLM 5.2	10.0	10.0	100.0%	0		20.69s	14,296	1,489	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
GLM 5.2	10.0	10.0	100.0%	0		7.17s	7,113	204	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
GLM 5.2	5.3	10.0	33.3%	0		6.50s	696	27	0

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
GLM 5.2	6.1	3.1	66.7%	1		4.42s	480	82	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
GLM 5.2	9.8	10.0	100.0%	0		3.84s	642	66	0

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
GLM 5.2	7.7	10.0	66.7%	0		3.31s	618	265	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
GLM 5.2	10.0	10.0	100.0%	0		15.76s	6,807	400	0

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
GLM 5.2	3.0	10.0	0.0%	0		3.41s	189	13	0

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.8nonevsGLM 5V Turbomedium Gemma 4 26B A4Bmediumनिःशुल्क उपलब्धvsGLM 5.2none MiMo-V2-FlashmediumvsGLM 5.2none Step 3.7 FlashhighvsGLM 5.2none Claude Opus 4.8nonevsGemma 4 26B A4Bmediumनिःशुल्क उपलब्ध Claude Opus 4.8nonevsGrok 4.20medium Kimi K2.7 CodemediumvsGLM 5.2none Claude Opus 4.8nonevsMiMo-V2-Flashmedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium