AI BENCHY तुलना

Qwen: Qwen3.6 Max Preview vs xAI: Grok 4.20

सारांश

Qwen3.6 Max Preview vs Grok 4.20 benchmark तुलना: Grok 4.20 average score में आगे है: 7.1 vs 6.9. Qwen3.6 Max Preview की benchmark लागत कम है: $0.075 vs $0.609. Qwen3.6 Max Preview तेज है: 3.30s vs 27.68s, pass rates 58.7% vs 63.5%.

अनुशंसित मॉडल: Qwen3.6 Max Preview - Its score stays close to the best score here (6.9 vs 7.1), while costing about 8.2x less than Grok 4.20.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-10

मेट्रिक	Qwen3.6 Max Preview Qwen3.6 Max Preview none रिलीज़: 2026-04-20	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31

मेट्रिक	Qwen3.6 Max Preview Qwen3.6 Max Preview none रिलीज़: 2026-04-20	Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31
स्कोर	6.9	7.1
रैंक	#75	#66
विश्वसनीयता	10.0	10.0
संगति	9.2	8.8
सही परीक्षण
प्रति प्रयास पास दर	58.7%	63.5%
अस्थिर टेस्ट	2	3
कुल रन	63	63
प्रति परिणाम लागत	0.824	8.309
कुल लागत	$0.075	$0.609
इनपुट कीमत	$1.040 / 1M	$1.250 / 1M
आउटपुट कीमत	$6.240 / 1M	$2.500 / 1M
कुल इनपुट टोकन	42,509	44,433
आउटपुट टोकन	4,779	1,819
रीजनिंग टोकन	0	219,524
प्रतिक्रिया समय (औसत)	3.30s	27.68s
प्रतिक्रिया समय (अधिकतम)	20.51s	199.66s
प्रतिक्रिया समय (कुल)	69.40s	581.26s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#75 Qwen3.6 Max Preview

none

Cost: $0.025
Time: 83.9s
Tokens: 4,066 tok

#66 xAI: Grok 4.20

medium

Cost: $0.041
Time: 110.3s
Tokens: 16,336 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

त्वरित तुलना

तुलना जोड़ी बदलें

Ring-2.6-1TmediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone GPT-5.3 ChatnonevsGrok 4.20medium Gemini 3.1 Flash LitelowvsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20medium Step 3.7 FlashhighvsGrok 4.20medium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone Step 3.7 FlashlowvsGrok 4.20medium Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh GPT-5.4 NanomediumvsQwen3.6 Max Previewnone