AI BENCHY तुलना

Qwen: Qwen3.5-27B vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक	Qwen3.5-27B Qwen3.5-27B none रिलीज़: 2026-02-24	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12

मेट्रिक	Qwen3.5-27B Qwen3.5-27B none रिलीज़: 2026-02-24	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक	#46	#47
औसत स्कोर	4.9	4.9
संगति	9.1	7.1
प्रति परिणाम लागत	0.302	97.178
कुल लागत	$0.016	$4.859
सही परीक्षण
प्रति प्रयास पास दर	37.5%	52.1%
अस्थिर टेस्ट	2	6
कुल रन	48	48
आउटपुट टोकन	3,161	293,634
रीजनिंग टोकन	0	291,260
प्रतिक्रिया समय (औसत)	1.75s	9.08s
प्रतिक्रिया समय (अधिकतम)	9.39s	35.28s
प्रतिक्रिया समय (कुल)	28.05s	127.09s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	4.0	10.0	33.3%	0		796ms	264	0
Grok 4.20 Multi-Agent Beta	4.0	4.4	66.7%	2		3.77s	28,392	27,808

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	10.0	1.6	33.3%	1		9.39s	1,461	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	9.9	10.0	100.0%	0		1.43s	243	0
Grok 4.20 Multi-Agent Beta	9.9	10.0	100.0%	0		5.54s	25,306	25,051

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	10.0	10.0	0.0%	0		540ms	15	0
Grok 4.20 Multi-Agent Beta	10.0	7.2	11.1%	1		24.67s	164,609	163,647

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	126	0
Grok 4.20 Multi-Agent Beta	4.0	2.8	66.7%	1		6.40s	15,848	15,746

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	4.5	10.0	0.0%	0		815ms	69	0
Grok 4.20 Multi-Agent Beta	9.0	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	6.3	7.9	55.6%	1		1.37s	680	0
Grok 4.20 Multi-Agent Beta	6.3	5.1	77.8%	2		5.01s	34,022	33,686

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

त्वरित तुलना

तुलना जोड़ी बदलें

Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-27Bnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsQwen3.5-27Bnone Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium Mercury 2mediumvsQwen3.5-27Bnone GPT-5.4nonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-27Bnone DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium