#66
Qwen · प्रकाशन: 2026-03-02 · qwen/qwen3.5-9b::medium
अस्थिर चाचण्या
5
अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).
चार्ट्स
पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.
सरासरी स्कोअर vs एकूण खर्च
प्रतिसाद वेळ (सरासरी)
सरासरी स्कोअर vs प्रतिसाद वेळ (सरासरी)
एकूण आउटपुट टोकन्स
सरासरी स्कोअर vs एकूण आउटपुट टोकन्स
झटपट तुलना
श्रेणीवार तपशील
| श्रेणी | सरासरी स्कोअर | सुसंगतता | बरोबर चाचण्या |
|---|---|---|---|
| अँटी-एआय युक्त्या | 4.0 | 7.2 | |
| संयुक्त | 10.0 | 10.0 | |
| डेटा पार्सिंग आणि निष्कर्षण | 5.0 | 5.6 | |
| डोमेन-विशिष्ट | 10.0 | 7.2 | |
| Samanya Buddhimatta | 10.0 | 1.6 | |
| सूचनांचे पालन | 5.5 | 5.8 | |
| कोडी सोडवणे | 10.0 | 10.0 | |
| टूल कॉलिंग | 10.0 | 10.0 |