नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

Qwen: Qwen3.5-9B vs xAI: Grok 4.20 Beta

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक Qwen3.5-9B Qwen3.5-9B medium रिलीज़: 2026-03-02 Grok 4.20 Beta Grok 4.20 Beta none रिलीज़: 2026-03-12
रैंक #66 #52
औसत स्कोर 2.6 4.4
संगति 7.4 9.1
प्रति परिणाम लागत 0.779 2.214
कुल लागत $0.024 $0.089
सही परीक्षण
प्रति प्रयास पास दर 35.4% 33.3%
अस्थिर टेस्ट 5 2
कुल रन 48 48
आउटपुट टोकन 17,930 1,511
रीजनिंग टोकन 139,706 0
प्रतिक्रिया समय (औसत) 71.44s 1.22s
प्रतिक्रिया समय (अधिकतम) 226.38s 6.48s
प्रतिक्रिया समय (कुल) 928.77s 19.53s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 4.0 7.2 55.6% 1 31.54s 2,410 10,913
Grok 4.20 Beta 3.3 7.9 22.2% 1 562ms 245 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 10.0 10.0 0.0% 0 0ms 0 0
Grok 4.20 Beta 10.0 10.0 0.0% 0 6.48s 282 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 5.0 5.6 33.3% 1 87.31s 1,383 32,113
Grok 4.20 Beta 9.9 10.0 100.0% 0 601ms 197 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 10.0 7.2 22.2% 1 137.75s 11,549 48,475
Grok 4.20 Beta 10.0 10.0 0.0% 0 611ms 160 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 10.0 1.6 33.3% 1 226.38s 0 30,695
Grok 4.20 Beta 5.0 10.0 0.0% 0 541ms 87 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 5.5 5.8 66.7% 1 17.15s 599 4,517
Grok 4.20 Beta 4.5 10.0 0.0% 0 687ms 60 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 10.0 10.0 0.0% 0 33.38s 1,545 11,844
Grok 4.20 Beta 4.0 7.2 55.6% 1 541ms 291 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Qwen3.5-9B 10.0 10.0 100.0% 0 4.31s 444 1,149
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.79s 189 0

त्वरित तुलना

तुलना जोड़ी बदलें