#139

Qwen3.5-9B

Qwen रिलीज़: 2026-03-02 परीक्षण किया गया: 2026-05-08 14:44 qwen/qwen3.5-9b::medium

(medium) (none)

सारांश

Qwen3.5-9B AI BENCHY पर 4.3 स्कोर करता है और #139 पर है। इसकी reliability 3.3, pass rate 33.3%, कुल लागत $0.035, और औसत response time 80.10s है।

स्कोर

4.3

संगति

6.9

विश्वसनीयता

3.3

कुल लागत (वर्तमान कीमत)

$0.035

कुल आउटपुट टोकन

229,656

कुल इनपुट टोकन

इनपुट कीमत

$0.040 / 1M

आउटपुट कीमत

$0.150 / 1M

सही परीक्षण

गलत टेस्ट: 16

प्रति प्रयास पास दर: 33.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

80.10s

प्रतिक्रिया समय (अधिकतम): 226.38s

प्रतिक्रिया समय (कुल): 1281.62s

समय समाप्त: 10 गलत उत्तर: 3 अतिरिक्त फॉर्मेटिंग: 1 निर्देशों का पालन नहीं किया: 1 कोई उत्तर नहीं: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#139 Qwen3.5-9B

medium

लागत: $0.001
समय: 35.9s
टोकन: 3,030 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 23:12 नया टेस्ट जोड़ा गया	3.8	5.0	$0.036 ↑	तुलना करें
2026-06-04 13:41 नया टेस्ट जोड़ा गया	4.2	5.6	$0.035 ↓	तुलना करें
2026-05-22 00:18 सूट बदला गया	4.2	1.7	$0.035	तुलना करें
2026-05-08 14:44 सूट बदला गया	4.3	3.3	$0.035	वर्तमान रन
2026-05-08 14:44 सूट बदला गया	4.3	3.3	$0.035	तुलना करें
2026-04-20 17:48 पहला दर्ज रन	4.4	लागू नहीं	$0.030	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 14:44 · सूट बदला गया	4.3	6.9	3.3	3/19	7	229,656	$0.035	80.10s
2026-04-20 17:48 · पहला दर्ज रन	4.4	7.2	लागू नहीं	3/18	6	196,888	$0.030	73.64s
अंतर	-0.1	-0.3		0	+1	+32768	+$0.005	+6461ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.5-9BmediumvsGranite 4.1 8Bnone Qwen3.5-9Bmediumvsgpt-oss-120bnoneनिःशुल्क उपलब्ध Qwen3.5-9BmediumvsGrok 4.20none Qwen3.5-9BmediumvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsLaguna S 2.1noneनिःशुल्क उपलब्ध Qwen3.5-9BmediumvsMiniMax M2.5medium Qwen3.5-9BmediumvsMercury 2none Qwen3.5-9BmediumvsCobuddymedium Qwen3.5-9BmediumvsQwen3 Coder Nextmedium Qwen3.5-9BmediumvsTrinity Large Previewnone

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	5.1	5.8
कोडिंग	2.6	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	3.6	5.6
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	2.8	1.6
निर्देश पालन	6.4	5.8
पहेली समाधान	2.9	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5-9B

Hamster playing table tennis

#139 Qwen3.5-9B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल