AI BENCHY तुलना

xAI: Grok 4.20 vs Z.ai: GLM 5.2

सारांश

Grok 4.20 vs GLM 5.2 benchmark तुलना: Grok 4.20 average score में आगे है: 7.3 vs 7.1. GLM 5.2 की benchmark लागत कम है: $0.076 vs $0.609. GLM 5.2 तेज है: 6.34s vs 27.68s, pass rates 63.5% vs 60.3%.

अनुशंसित मॉडल: GLM 5.2 - Its score stays close to the best score here (7.1 vs 7.3), while costing about 8.1x less than Grok 4.20.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-17

मेट्रिक	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31	GLM 5.2 GLM 5.2 none रिलीज़: 2026-06-17

मेट्रिक	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31	GLM 5.2 GLM 5.2 none रिलीज़: 2026-06-17
स्कोर	7.3	7.1
रैंक	#53	#61
विश्वसनीयता	10.0	9.9
संगति	8.8	9.6
सही परीक्षण
प्रति प्रयास पास दर	63.5%	60.3%
अस्थिर टेस्ट	3	1
कुल रन	63	63
प्रति परिणाम लागत	8.309	0.628
कुल लागत	$0.609	$0.076
इनपुट कीमत	$1.250 / 1M	$1.400 / 1M
आउटपुट कीमत	$2.500 / 1M	$4.400 / 1M
कुल इनपुट टोकन	44,433	38,671
आउटपुट टोकन	1,819	4,817
रीजनिंग टोकन	219,524	0
प्रतिक्रिया समय (औसत)	27.68s	6.34s
प्रतिक्रिया समय (अधिकतम)	199.66s	20.69s
प्रतिक्रिया समय (कुल)	581.26s	133.19s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#53 xAI: Grok 4.20

medium

Cost: $0.041
Time: 110.3s
Tokens: 16,336 tok

#61 GLM 5.2

none

Invalid SVG

Cost: $0.033
Time: 87.7s
Tokens: 7,455 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312
GLM 5.2	8.3	10.0	75.0%	0		3.70s	567	313	0

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150
GLM 5.2	3.7	9.5	0.0%	0		7.55s	7,263	1,958	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556
GLM 5.2	10.0	10.0	100.0%	0		20.69s	14,296	1,489	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333
GLM 5.2	10.0	10.0	100.0%	0		7.17s	7,113	204	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339
GLM 5.2	5.3	10.0	33.3%	0		6.50s	696	27	0

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440
GLM 5.2	6.1	3.1	66.7%	1		4.42s	480	82	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419
GLM 5.2	9.8	10.0	100.0%	0		3.84s	642	66	0

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913
GLM 5.2	7.7	10.0	66.7%	0		3.31s	618	265	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620
GLM 5.2	10.0	10.0	100.0%	0		15.76s	6,807	400	0

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442
GLM 5.2	3.0	10.0	0.0%	0		3.41s	189	13	0

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3 Flash PreviewlowvsGrok 4.20medium Gemma 4 26B A4Bmediumनिःशुल्क उपलब्धvsGLM 5.2none Claude Sonnet 4.6nonevsGrok 4.20medium MiMo-V2-FlashmediumvsGLM 5.2none Step 3.7 FlashhighvsGLM 5.2none Claude Opus 4.8nonevsGrok 4.20medium Kimi K2.7 CodemediumvsGLM 5.2none GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Qwen3.7 PlusnonevsGrok 4.20medium Gemini 3 Flash PreviewlowvsGLM 5.2none Step 3.7 FlashhighvsGrok 4.20medium