AI BENCHY तुलना

xAI: Grok 4.20 vs Z.ai: GLM 5.1

सारांश

Grok 4.20 vs GLM 5.1 benchmark तुलना: Grok 4.20 average score में आगे है: 7.3 vs 7.1. GLM 5.1 की benchmark लागत कम है: $0.292 vs $0.609. Grok 4.20 तेज है: 27.68s vs 33.67s, pass rates 63.5% vs 68.3%.

अनुशंसित मॉडल: GLM 5.1 - Its score stays close to the best score here (7.1 vs 7.3), while costing about 2.1x less than Grok 4.20.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31	GLM 5.1 GLM 5.1 medium रिलीज़: 2026-04-07

मेट्रिक	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31	GLM 5.1 GLM 5.1 medium रिलीज़: 2026-04-07
स्कोर	7.3	7.1
रैंक	#53	#64
विश्वसनीयता	10.0	6.7
संगति	8.8	8.3
सही परीक्षण
प्रति प्रयास पास दर	63.5%	68.3%
अस्थिर टेस्ट	3	4
कुल रन	63	63
प्रति परिणाम लागत	8.309	2.496
कुल लागत	$0.609	$0.292
इनपुट कीमत	$1.250 / 1M	$0.980 / 1M
आउटपुट कीमत	$2.500 / 1M	$3.080 / 1M
कुल इनपुट टोकन	44,433	32,995
आउटपुट टोकन	1,819	11,655
रीजनिंग टोकन	219,524	75,421
प्रतिक्रिया समय (औसत)	27.68s	33.67s
प्रतिक्रिया समय (अधिकतम)	199.66s	172.60s
प्रतिक्रिया समय (कुल)	581.26s	673.41s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#53 xAI: Grok 4.20

medium

लागत: $0.041
समय: 110.3s
टोकन: 16,336 tok

#64 GLM 5.1

medium

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556
GLM 5.1	9.5	10.0	100.0%	0		43.11s	17,298	327	4,206

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179

त्वरित तुलना

तुलना जोड़ी बदलें

Step 3.7 FlashhighvsGLM 5.1medium Gemini 3 Flash PreviewlowvsGrok 4.20medium Claude Sonnet 4.6nonevsGrok 4.20medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 PrononevsGLM 5.1medium Gemini 3.5 FlashnonevsGLM 5.1medium Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsGLM 5.1medium GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Gemini 3 Flash PreviewnonevsGLM 5.1medium Qwen3.7 PlusnonevsGrok 4.20medium