AI BENCHY तुलना

Qwen: Qwen3.5-27B vs xAI: Grok 4.20

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-04-02

मेट्रिक	Qwen3.5-27B Qwen3.5-27B none रिलीज़: 2026-02-24	Grok 4.20 Grok 4.20 none रिलीज़: 2026-03-31

मेट्रिक	Qwen3.5-27B Qwen3.5-27B none रिलीज़: 2026-02-24	Grok 4.20 Grok 4.20 none रिलीज़: 2026-03-31
स्कोर	5.6	5.4
रैंक	#65	#69
संगति	9.1	9.5
सही परीक्षण
प्रति प्रयास पास दर	35.3%	31.4%
अस्थिर टेस्ट	2	1
कुल रन	51	51
प्रति परिणाम लागत	0.303	1.809
कुल लागत	$0.016	$0.091
???? ???	$0.195 / 1M	$2.000 / 1M
????? ???	$1.560 / 1M	$6.000 / 1M
आउटपुट टोकन	3,164	1,655
रीजनिंग टोकन	0	0
प्रतिक्रिया समय (औसत)	1.70s	1.11s
प्रतिक्रिया समय (अधिकतम)	9.39s	6.04s
प्रतिक्रिया समय (कुल)	28.82s	18.80s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	4.8	10.0	25.0%	0		788ms	267	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	2.8	1.6	33.3%	1		9.39s	1,461	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	10.0	10.0	100.0%	0		1.43s	243	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	3.0	10.0	0.0%	0		540ms	15	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	126	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	4.8	10.0	0.0%	0		815ms	69	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

Puzzle Solving	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	6.7	7.9	55.6%	1		1.37s	680	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

त्वरित तुलना

तुलना जोड़ी बदलें

Mistral Small 4mediumvsQwen3.5-27Bnone Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumनिःशुल्क उपलब्धvsQwen3.5-27Bnone MiniMax M2.7mediumvsGrok 4.20none gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-27Bnone MiniMax M2.5mediumनिःशुल्क उपलब्धvsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.7mediumvsQwen3.5-27Bnone Qwen3.5-27BnonevsGrok 4.20 Multi Agent Betamedium gpt-oss-120bmediumनिःशुल्क उपलब्धvsGrok 4.20none GPT-5 NanomediumvsQwen3.5-27Bnone Grok 4.20nonevsGLM 4.7 Flashmedium