नेव्हिगेशन
AI BENCHY
Your ad here

AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.5-9B

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-03-12

मेट्रिक Mercury 2 Mercury 2 none प्रकाशन: 2026-02-24 Qwen3.5-9B Qwen3.5-9B medium प्रकाशन: 2026-03-02
क्रमांक #61 #66
सरासरी स्कोअर 3.4 2.6
सुसंगतता 9.0 7.4
प्रति निकाल खर्च 0.153 0.779
एकूण खर्च $0.007 $0.024
बरोबर चाचण्या
प्रति प्रयत्न पास दर 31.3% 35.4%
अस्थिर चाचण्या 2 5
एकूण रन 48 48
आउटपुट टोकन्स 1,303 17,930
रिझनिंग टोकन्स 0 139,706
प्रतिसाद वेळ (सरासरी) 596ms 71.44s
प्रतिसाद वेळ (कमाल) 1.27s 226.38s
प्रतिसाद वेळ (एकूण) 9.54s 928.77s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

सरासरी स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

सरासरी स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 0.0% 0 466ms 274 0
Qwen3.5-9B 4.0 7.2 55.6% 1 31.54s 2,410 10,913
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 0.0% 0 606ms 131 0
Qwen3.5-9B 10.0 10.0 0.0% 0 0ms 0 0
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 5.5 5.9 83.3% 1 667ms 180 0
Qwen3.5-9B 5.0 5.6 33.3% 1 87.31s 1,383 32,113
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 4.0 7.2 44.4% 1 534ms 46 0
Qwen3.5-9B 10.0 7.2 22.2% 1 137.75s 11,549 48,475
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 4.0 10.0 0.0% 0 628ms 159 0
Qwen3.5-9B 10.0 1.6 33.3% 1 226.38s 0 30,695
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 5.5 10.0 50.0% 0 551ms 82 0
Qwen3.5-9B 5.5 5.8 66.7% 1 17.15s 599 4,517
Puzzle Solving स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 0.0% 0 533ms 234 0
Qwen3.5-9B 10.0 10.0 0.0% 0 33.38s 1,545 11,844
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Mercury 2 10.0 10.0 100.0% 0 1.27s 197 0
Qwen3.5-9B 10.0 10.0 100.0% 0 4.31s 444 1,149

झटपट तुलना

तुलना जोडी बदला