AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs xAI: Grok 4.20 Multi-Agent Beta

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-03-12

मेट्रिक	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none प्रकाशन: 2026-02-24	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium प्रकाशन: 2026-03-12

मेट्रिक	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none प्रकाशन: 2026-02-24	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium प्रकाशन: 2026-03-12
क्रमांक	#44	#47
सरासरी स्कोअर	5.0	4.9
सुसंगतता	9.6	7.1
प्रति निकाल खर्च	0.333	97.178
एकूण खर्च	$0.020	$4.859
बरोबर चाचण्या
प्रति प्रयत्न पास दर	39.6%	52.1%
अस्थिर चाचण्या	1	6
एकूण रन	48	48
आउटपुट टोकन्स	2,679	293,634
रिझनिंग टोकन्स	0	291,260
प्रतिसाद वेळ (सरासरी)	3.72s	9.08s
प्रतिसाद वेळ (कमाल)	46.00s	35.28s
प्रतिसाद वेळ (एकूण)	59.46s	127.09s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

सरासरी स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

सरासरी स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	4.0	10.0	33.3%	0		927ms	309	0
Grok 4.20 Multi-Agent Beta	4.0	4.4	66.7%	2		3.77s	28,392	27,808

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	10.0	10.0	0.0%	0		46.00s	1,137	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	9.9	10.0	100.0%	0		1.01s	243	0
Grok 4.20 Multi-Agent Beta	9.9	10.0	100.0%	0		5.54s	25,306	25,051

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	4.0	10.0	33.3%	0		465ms	15	0
Grok 4.20 Multi-Agent Beta	10.0	7.2	11.1%	1		24.67s	164,609	163,647

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	66	0
Grok 4.20 Multi-Agent Beta	4.0	2.8	66.7%	1		6.40s	15,848	15,746

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	4.5	6.8	16.7%	1		585ms	70	0
Grok 4.20 Multi-Agent Beta	9.0	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	4.0	10.0	33.3%	0		982ms	575	0
Grok 4.20 Multi-Agent Beta	6.3	5.1	77.8%	2		5.01s	34,022	33,686

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	264	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

झटपट तुलना

तुलना जोडी बदला

Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumमोफत उपलब्धvsQwen3.5-122B-A10Bnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium Mercury 2mediumvsQwen3.5-122B-A10Bnone Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4nonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-122B-A10Bnone DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium