#98

Qwen3.5-9B

Qwen प्रकाशन: 2026-03-02 चाचणी तारीख: 2026-04-20 17:48 qwen/qwen3.5-9b::none

(medium) (none)

सारांश

Qwen3.5-9B AI BENCHY वर 4.8 स्कोर करते आणि #98 वर आहे. याची reliability लागू नाही, pass rate 24.1%, एकूण खर्च $0.005, आणि सरासरी response time 1.47s आहे.

Qwen3.5-9B खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे. समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

स्कोअर

4.8

सुसंगतता

9.6

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.005

एकूण आउटपुट टोकन्स

3,951

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.100 / 1M

आउटपुट किंमत

$0.150 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 14

प्रति प्रयत्न पास दर: 24.1%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.47s

प्रतिसाद वेळ (कमाल): 5.91s

प्रतिसाद वेळ (एकूण): 26.43s

चुकीचे उत्तर: 10 सूचनांचे पालन केले नाही: 3 अवैध टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#98 Qwen3.5-9B

none

अवैध SVG

खर्च: $0.000
वेळ: 300.0s
टोकन्स: 0 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:25 नवीन चाचणी जोडली	5.1	10.0	$0.021 ↑	तुलना करा
2026-06-04 13:30 नवीन चाचणी जोडली	4.6	10.0	$0.003 ↓	तुलना करा
2026-05-22 00:02 सूट बदलला	4.6	10.0	$0.005	तुलना करा
2026-05-08 13:28 सूट बदलला	4.7	10.0	$0.005	तुलना करा
2026-05-08 13:28 सूट बदलला	4.7	10.0	$0.005	तुलना करा
2026-04-20 17:48 पहिली नोंदलेली रन	4.8	लागू नाही	$0.005	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-20 17:48 · पहिली नोंदलेली रन	4.8	9.6	लागू नाही	4/18	1	3,951	0	$0.005	1.47s
2026-06-04 13:30 · नवीन चाचणी जोडली	4.6	9.7	10.0	4/21	1	3,952	48,041	$0.003	1.89s
फरक	+0.2	-0.1		0	0	-1	-48041	+$0.003	-421ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Qwen3.5-9BnonevsMiMo-V2.5none Qwen3.5-9BnonevsNorth Mini Codenoneमोफत उपलब्ध Qwen3.5-9BnonevsMistral Small 4medium Qwen3.5-9BnonevsMiniMax M2.7medium Qwen3.5-9BnonevsQwen3 Coder Nextnone Qwen3.5-9BnonevsLaguna S 2.1lowमोफत उपलब्ध Qwen3.5-9BnonevsMistral Small 4none Qwen3.5-9BnonevsDeepSeek V3.2none Qwen3.5-9BnonevsInklingnone Qwen3.5-9BnonevsGPT-4o-mininone

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	3.1	9.9
कोडिंग	5.2	3.4
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.4	9.9
सूचनांचे पालन	6.5	10.0
कोडी सोडवणे	3.2	9.9
टूल कॉलिंग	10.0	10.0

Qwen3.5-9B

Hamster playing table tennis

#98 Qwen3.5-9B

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स