AI BENCHY Compare

xAI: Grok 4.20 vs Z.ai: GLM 5.1

सारांश

Grok 4.20 vs GLM 5.1 benchmark तुलना: Grok 4.20 average score मध्ये पुढे आहे: 7.3 vs 7.1. GLM 5.1 चा benchmark खर्च कमी आहे: $0.292 vs $0.609. Grok 4.20 वेगवान आहे: 27.68s vs 33.67s, pass rates 63.5% vs 68.3%.

शिफारस केलेले मॉडेल: GLM 5.1 - Its score stays close to the best score here (7.1 vs 7.3), while costing about 2.1x less than Grok 4.20.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक	Grok 4.20 Grok 4.20 medium प्रकाशन: 2026-03-31	GLM 5.1 GLM 5.1 medium प्रकाशन: 2026-04-07

मेट्रिक	Grok 4.20 Grok 4.20 medium प्रकाशन: 2026-03-31	GLM 5.1 GLM 5.1 medium प्रकाशन: 2026-04-07
स्कोअर	7.3	7.1
क्रमांक	#53	#64
विश्वसनीयता	10.0	6.7
सुसंगतता	8.8	8.3
बरोबर चाचण्या
प्रति प्रयत्न पास दर	63.5%	68.3%
अस्थिर चाचण्या	3	4
एकूण रन	63	63
प्रति निकाल खर्च	8.309	2.496
एकूण खर्च	$0.609	$0.292
इनपुट किंमत	$1.250 / 1M	$0.980 / 1M
आउटपुट किंमत	$2.500 / 1M	$3.080 / 1M
एकूण इनपुट टोकन्स	44,433	32,995
आउटपुट टोकन्स	1,819	11,655
रिझनिंग टोकन्स	219,524	75,421
प्रतिसाद वेळ (सरासरी)	27.68s	33.67s
प्रतिसाद वेळ (कमाल)	199.66s	172.60s
प्रतिसाद वेळ (एकूण)	581.26s	673.41s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#53 xAI: Grok 4.20

medium

खर्च: $0.041
वेळ: 110.3s
टोकन्स: 16,336 tok

#64 GLM 5.1

medium

अवैध SVG

खर्च: $0.000
वेळ: 300.0s
टोकन्स: 0 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556
GLM 5.1	9.5	10.0	100.0%	0		43.11s	17,298	327	4,206

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179

झटपट तुलना

तुलना जोडी बदला

Step 3.7 FlashhighvsGLM 5.1medium Gemini 3 Flash PreviewlowvsGrok 4.20medium Claude Sonnet 4.6nonevsGrok 4.20medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 PrononevsGLM 5.1medium Gemini 3.5 FlashnonevsGLM 5.1medium Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsGLM 5.1medium GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Gemini 3 Flash PreviewnonevsGLM 5.1medium Qwen3.7 PlusnonevsGrok 4.20medium