नेविगेशन
AI BENCHY
Advertise here

AI BENCHY तुलना

Qwen: Qwen3.7 Plus vs xAI: Grok 4.20

सारांश

Qwen3.7 Plus vs Grok 4.20 benchmark तुलना: Grok 4.20 average score में आगे है: 7.3 vs 7.2. Qwen3.7 Plus की benchmark लागत कम है: $0.023 vs $0.609. Qwen3.7 Plus तेज है: 2.85s vs 27.68s, pass rates 47.6% vs 63.5%.

अनुशंसित मॉडल: Qwen3.7 Plus - Its score stays close to the best score here (7.2 vs 7.3), while costing about 27.6x less than Grok 4.20.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक Qwen3.7 Plus Qwen3.7 Plus none रिलीज़: 2026-06-03 Grok 4.20 Grok 4.20 medium रिलीज़: 2026-03-31
स्कोर 7.2 7.3
रैंक #61 #54
विश्वसनीयता 10.0 10.0
संगति 10.0 8.8
सही परीक्षण
प्रति प्रयास पास दर 47.6% 63.5%
अस्थिर टेस्ट 0 3
कुल रन 63 63
प्रति परिणाम लागत 0.276 8.309
कुल लागत $0.023 $0.609
इनपुट कीमत $0.320 / 1M $1.250 / 1M
आउटपुट कीमत $1.280 / 1M $2.500 / 1M
कुल इनपुट टोकन 42,510 44,433
आउटपुट टोकन 6,578 1,819
रीजनिंग टोकन 0 219,524
प्रतिक्रिया समय (औसत) 2.85s 27.68s
प्रतिक्रिया समय (अधिकतम) 29.38s 199.66s
प्रतिक्रिया समय (कुल) 59.86s 581.26s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#61 Qwen3.7 Plus

none
Cost
$0.019
Time
213.5s
Tokens
11,960 tok

#54 xAI: Grok 4.20

medium
Cost
$0.041
Time
110.3s
Tokens
16,336 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 6.5 10.0 50.0% 0 1.38s 696 349 0
Grok 4.20 8.2 7.9 83.3% 1 3.95s 2,010 287 8,312
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 5.5 10.0 33.3% 0 2.15s 7,911 639 0
Grok 4.20 6.3 6.6 55.6% 1 109.93s 8,307 268 103,150
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 29.38s 14,952 4,505 0
Grok 4.20 10.0 10.0 100.0% 0 17.40s 12,909 232 9,556
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 1.43s 7,794 243 0
Grok 4.20 10.0 10.0 100.0% 0 4.17s 7,761 180 5,333
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 3.0 10.0 0.0% 0 868ms 789 18 0
Grok 4.20 5.3 10.0 33.3% 0 27.03s 1,764 375 49,339
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 5.3 10.0 0.0% 0 1.33s 522 78 0
Grok 4.20 3.9 2.6 33.3% 1 24.48s 825 65 6,440
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 6.3 10.0 50.0% 0 929ms 711 72 0
Grok 4.20 9.8 10.0 100.0% 0 4.26s 1,362 57 6,419
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 7.7 10.0 66.7% 0 1.71s 714 443 0
Grok 4.20 7.7 10.0 66.7% 0 6.22s 1,689 149 7,913
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 10.0 10.0 100.0% 0 3.54s 8,211 222 0
Grok 4.20 3.0 10.0 0.0% 0 13.68s 7,275 197 6,620
सामान्य ज्ञान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) इनपुट टोकन आउटपुट टोकन रीजनिंग टोकन
Qwen3.7 Plus 3.0 10.0 0.0% 0 1.21s 210 9 0
Grok 4.20 3.0 10.0 0.0% 0 63.48s 531 9 16,442

त्वरित तुलना

तुलना जोड़ी बदलें