#142

Qwen3.5-9B

Qwen रिलीज़: 2026-03-02 परीक्षण किया गया: 2026-05-22 00:02 qwen/qwen3.5-9b::none

(medium) (none)

सारांश

Qwen3.5-9B AI BENCHY पर 4.6 स्कोर करता है और #142 पर है। इसकी reliability 10.0, pass rate 21.7%, कुल लागत $0.005, और औसत response time 1.69s है।

स्कोर

4.6

संगति

9.7

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.005

कुल आउटपुट टोकन

3,984

कुल इनपुट टोकन

इनपुट कीमत

$0.040 / 1M

आउटपुट कीमत

$0.150 / 1M

सही परीक्षण

गलत टेस्ट: 16

प्रति प्रयास पास दर: 21.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.69s

प्रतिक्रिया समय (अधिकतम): 5.91s

प्रतिक्रिया समय (कुल): 33.84s

गलत उत्तर: 13 निर्देशों का पालन नहीं किया: 2 अमान्य टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#142 Qwen3.5-9B

none

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:25 नया टेस्ट जोड़ा गया	5.1	10.0	$0.021 ↑	तुलना करें
2026-06-04 13:30 नया टेस्ट जोड़ा गया	4.6	10.0	$0.003 ↓	तुलना करें
2026-05-22 00:02 सूट बदला गया	4.6	10.0	$0.005	वर्तमान रन
2026-05-08 13:28 सूट बदला गया	4.7	10.0	$0.005	तुलना करें
2026-05-08 13:28 सूट बदला गया	4.7	10.0	$0.005	तुलना करें
2026-04-20 17:48 पहला दर्ज रन	4.8	लागू नहीं	$0.005	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-22 00:02 · सूट बदला गया	4.6	9.7	10.0	4/20	1	3,984	$0.005	1.69s
2026-05-08 13:28 · सूट बदला गया	4.7	9.6	10.0	4/19	1	3,957	$0.005	1.51s
अंतर	-0.1	+0.1	0.0	0	0	+27	+$0.001	+179ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.5-9BnonevsMiMo-V2.5none Qwen3.5-9BnonevsNorth Mini Codenoneनिःशुल्क उपलब्ध Qwen3.5-9BnonevsMistral Small 4medium Qwen3.5-9BnonevsMiniMax M2.7medium Qwen3.5-9BnonevsQwen3 Coder Nextnone Qwen3.5-9BnonevsLaguna S 2.1lowनिःशुल्क उपलब्ध Qwen3.5-9BnonevsMistral Small 4none Qwen3.5-9BnonevsDeepSeek V3.2none Qwen3.5-9BnonevsInklingnone Qwen3.5-9BnonevsGPT-4o-mininone

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.1	9.9
कोडिंग	4.4	6.7
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.4	9.9
निर्देश पालन	6.5	10.0
पहेली समाधान	3.1	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5-9B

Hamster playing table tennis

#142 Qwen3.5-9B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल