#151

Qwen3.5-9B

Qwen रिलीज़: 2026-03-02 परीक्षण किया गया: 2026-05-22 00:18 qwen/qwen3.5-9b::medium

(medium) (none)

सारांश

Qwen3.5-9B AI BENCHY पर 4.2 स्कोर करता है और #151 पर है। इसकी reliability 1.7, pass rate 31.7%, कुल लागत $0.035, और औसत response time 80.10s है।

Qwen3.5-9B को अलग क्या बनाता है: यह असामान्य रूप से अधिक reasoning tokens इस्तेमाल करता है, जिससे धीमे या महंगे runs समझ में आ सकते हैं।

स्कोर

4.2

संगति

7.0

विश्वसनीयता

1.7

कुल लागत (वर्तमान कीमत)

$0.035

कुल आउटपुट टोकन

229,656

कुल इनपुट टोकन

इनपुट कीमत

$0.040 / 1M

आउटपुट कीमत

$0.150 / 1M

सही परीक्षण

गलत टेस्ट: 17

प्रति प्रयास पास दर: 31.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

80.10s

प्रतिक्रिया समय (अधिकतम): 226.38s

प्रतिक्रिया समय (कुल): 1281.62s

समय समाप्त: 10 गलत उत्तर: 3 कोई उत्तर नहीं: 2 अतिरिक्त फॉर्मेटिंग: 1 निर्देशों का पालन नहीं किया: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Qwen3.5-9B

medium

लागत: $0.001
समय: 35.9s
टोकन: 3,030 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:12 नया टेस्ट जोड़ा गया	3.8	5.0	$0.036 ↑	तुलना करें
2026-06-04 13:41 नया टेस्ट जोड़ा गया	4.2	5.6	$0.035 ↓	तुलना करें
2026-05-22 00:18 सूट बदला गया	4.2	1.7	$0.035	वर्तमान रन
2026-05-08 14:44 सूट बदला गया	4.3	3.3	$0.035	तुलना करें
2026-05-08 14:44 सूट बदला गया	4.3	3.3	$0.035	तुलना करें
2026-04-20 17:48 पहला दर्ज रन	4.4	लागू नहीं	$0.030	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-22 00:18 · सूट बदला गया	4.2	7.0	1.7	3/20	7	229,656	$0.035	80.10s
2026-05-08 14:44 · सूट बदला गया	4.3	6.9	3.3	3/19	7	229,656	$0.035	80.10s
अंतर	-0.1	+0.1	-1.6	0	0	0	$0.000	0ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.5-9BmediumvsGranite 4.1 8Bnone Qwen3.5-9Bmediumvsgpt-oss-120bnoneनिःशुल्क उपलब्ध Qwen3.5-9BmediumvsGrok 4.20none Qwen3.5-9BmediumvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsLaguna S 2.1noneनिःशुल्क उपलब्ध Qwen3.5-9BmediumvsMiniMax M2.5medium Qwen3.5-9BmediumvsMercury 2none Qwen3.5-9BmediumvsCobuddymedium Qwen3.5-9BmediumvsQwen3 Coder Nextmedium Qwen3.5-9BmediumvsTrinity Large Previewnone

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	5.1	5.8
कोडिंग	2.8	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	3.6	5.6
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	2.8	1.6
निर्देश पालन	6.4	5.8
पहेली समाधान	2.9	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5-9B

Hamster playing table tennis

#151 Qwen3.5-9B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल