AI BENCHY Compare

Grok 4.20 Multi Agent Beta vs Z.ai: GLM 5.1

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-04-07

मेट्रिक	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium प्रकाशन: 2026-03-12	GLM 5.1 GLM 5.1 none प्रकाशन: 2026-04-07

मेट्रिक	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium प्रकाशन: 2026-03-12	GLM 5.1 GLM 5.1 none प्रकाशन: 2026-04-07
स्कोअर	6.2	5.6
क्रमांक	#56	#67
सुसंगतता	7.2	8.2
बरोबर चाचण्या
प्रति प्रयत्न पास दर	54.9%	39.2%
अस्थिर चाचण्या	6	4
एकूण रन	51	51
प्रति निकाल खर्च	82.962	1.000
एकूण खर्च	$4.978	$0.050
???? ???	$0.000 / 1M	$1.000 / 1M
????? ???	$0.000 / 1M	$3.200 / 1M
आउटपुट टोकन्स	298,948	3,219
रिझनिंग टोकन्स	296,529	0
प्रतिसाद वेळ (सरासरी)	8.64s	4.01s
प्रतिसाद वेळ (कमाल)	35.28s	32.57s
प्रतिसाद वेळ (एकूण)	129.64s	68.23s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Puzzle Solving	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

झटपट तुलना

तुलना जोडी बदला

Gemma 4 26B A4Bnoneमोफत उपलब्धvsGrok 4.20 Multi Agent Betamedium Mistral Small 4mediumvsGLM 5.1none DeepSeek V3.2nonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi Agent Betamedium Grok 4.20 Multi Agent BetamediumvsMiMo-V2-Omninone MiniMax M2.5mediumमोफत उपलब्धvsGLM 5.1none Grok 4.20 Multi Agent BetamediumvsGLM 5V Turbonone Seed-2.0-LitenonevsGrok 4.20 Multi Agent Betamedium Gemini 2.5 FlashnonevsGrok 4.20 Multi Agent Betamedium Qwen3.5-35B-A3BnonevsGrok 4.20 Multi Agent Betamedium gpt-oss-120bmediumमोफत उपलब्धvsGLM 5.1none Hunter AlphanonevsGrok 4.20 Multi Agent Betamedium