AI BENCHY तुलना

Qwen: Qwen3.5-Flash vs xAI: Grok 4.20 Multi-Agent Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक	Qwen3.5-Flash Qwen3.5-Flash none रिलीज़: 2026-02-24	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12

मेट्रिक	Qwen3.5-Flash Qwen3.5-Flash none रिलीज़: 2026-02-24	Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium रिलीज़: 2026-03-12
रैंक	#41	#47
औसत स्कोर	5.2	4.9
संगति	9.6	7.1
प्रति परिणाम लागत	0.077	97.178
कुल लागत	$0.006	$4.859
सही परीक्षण
प्रति प्रयास पास दर	45.8%	52.1%
अस्थिर टेस्ट	1	6
कुल रन	48	48
आउटपुट टोकन	3,774	293,634
रीजनिंग टोकन	0	291,260
प्रतिक्रिया समय (औसत)	3.54s	9.08s
प्रतिक्रिया समय (अधिकतम)	13.73s	35.28s
प्रतिक्रिया समय (कुल)	56.70s	127.09s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	2.3	7.8	11.1%	1		1.62s	687	0
Grok 4.20 Multi-Agent Beta	4.0	4.4	66.7%	2		3.77s	28,392	27,808

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	10.0	10.0	0.0%	0		6.22s	1,794	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	9.9	10.0	100.0%	0		1.57s	243	0
Grok 4.20 Multi-Agent Beta	9.9	10.0	100.0%	0		5.54s	25,306	25,051

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	7.0	10.0	66.7%	0		905ms	15	0
Grok 4.20 Multi-Agent Beta	10.0	7.2	11.1%	1		24.67s	164,609	163,647

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0
Grok 4.20 Multi-Agent Beta	4.0	2.8	66.7%	1		6.40s	15,848	15,746

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	5.0	10.0	50.0%	0		8.81s	63	0
Grok 4.20 Multi-Agent Beta	9.0	10.0	50.0%	0		4.63s	25,457	25,322

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	1.3	10.0	0.0%	0		5.90s	608	0
Grok 4.20 Multi-Agent Beta	6.3	5.1	77.8%	2		5.01s	34,022	33,686

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0
Grok 4.20 Multi-Agent Beta	10.0	10.0	0.0%	0		0ms	0	0

त्वरित तुलना

तुलना जोड़ी बदलें

Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Mercury 2mediumvsQwen3.5-Flashnone Qwen3.5-122B-A10BnonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-Flashnone Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-Flashnone Gemini 2.5 FlashnonevsGrok 4.20 Multi-Agent Betamedium Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium GPT-5.4nonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsQwen3.5-Flashnone Nemotron 3 Super 120b A12bmediumनिःशुल्क उपलब्धvsQwen3.5-Flashnone