नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Qwen: Qwen3.5-9B vs xAI: Grok 4.20

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-04-02

मेट्रिक Qwen3.5-9B Qwen3.5-9B medium प्रकाशन: 2026-03-02 Grok 4.20 Grok 4.20 none प्रकाशन: 2026-03-31
स्कोअर 4.5 5.4
क्रमांक #83 #69
सुसंगतता 7.0 9.5
बरोबर चाचण्या
प्रति प्रयत्न पास दर 35.3% 31.4%
अस्थिर चाचण्या 6 1
एकूण रन 51 51
प्रति निकाल खर्च 0.787 1.809
एकूण खर्च $0.024 $0.091
???? ??? $0.050 / 1M $2.000 / 1M
????? ??? $0.150 / 1M $6.000 / 1M
आउटपुट टोकन्स 18,141 1,655
रिझनिंग टोकन्स 141,204 0
प्रतिसाद वेळ (सरासरी) 69.21s 1.11s
प्रतिसाद वेळ (कमाल) 226.38s 6.04s
प्रतिसाद वेळ (एकूण) 968.99s 18.80s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 5.1 5.8 50.0% 2 34.44s 2,621 12,411
Grok 4.20 4.8 10.0 25.0% 0 501ms 267 0
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 3.0 10.0 0.0% 0 0ms 0 0
Grok 4.20 3.0 10.0 0.0% 0 6.04s 282 0
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 3.6 5.6 33.3% 1 87.31s 1,383 32,113
Grok 4.20 10.0 10.0 100.0% 0 522ms 207 0
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 3.6 7.2 22.2% 1 137.75s 11,549 48,475
Grok 4.20 3.0 10.0 0.0% 0 687ms 325 0
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 2.8 1.6 33.3% 1 226.38s 0 30,695
Grok 4.20 4.8 10.0 0.0% 0 659ms 83 0
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 6.4 5.8 66.7% 1 17.15s 599 4,517
Grok 4.20 4.8 10.0 0.0% 0 455ms 60 0
Puzzle Solving स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 3.1 10.0 0.0% 0 33.38s 1,545 11,844
Grok 4.20 5.3 7.4 44.4% 1 487ms 242 0
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Qwen3.5-9B 10.0 10.0 100.0% 0 4.31s 444 1,149
Grok 4.20 10.0 10.0 100.0% 0 4.63s 189 0

झटपट तुलना

तुलना जोडी बदला