#131

Qwen3.5-9B

Qwen रिलीज़: 2026-03-02 परीक्षण किया गया: 2026-05-08 13:28 qwen/qwen3.5-9b::none

(medium) (none)

सारांश

Qwen3.5-9B AI BENCHY पर 4.7 स्कोर करता है और #131 पर है। इसकी reliability 10.0, pass rate 22.8%, कुल लागत $0.005, और औसत response time 1.51s है।

Qwen3.5-9B को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

4.7

संगति

9.6

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.005

कुल आउटपुट टोकन

3,957

कुल इनपुट टोकन

इनपुट कीमत

$0.040 / 1M

आउटपुट कीमत

$0.150 / 1M

सही परीक्षण

गलत टेस्ट: 15

प्रति प्रयास पास दर: 22.8%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.51s

प्रतिक्रिया समय (अधिकतम): 5.91s

प्रतिक्रिया समय (कुल): 28.75s

गलत उत्तर: 12 निर्देशों का पालन नहीं किया: 2 अमान्य टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#131 Qwen3.5-9B

none

अमान्य SVG

लागत: $0.000
समय: 300.0s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:25 नया टेस्ट जोड़ा गया	5.1	10.0	$0.021 ↑	तुलना करें
2026-06-04 13:30 नया टेस्ट जोड़ा गया	4.6	10.0	$0.003 ↓	तुलना करें
2026-05-22 00:02 सूट बदला गया	4.6	10.0	$0.005	तुलना करें
2026-05-08 13:28 सूट बदला गया	4.7	10.0	$0.005	वर्तमान रन
2026-05-08 13:28 सूट बदला गया	4.7	10.0	$0.005	तुलना करें
2026-04-20 17:48 पहला दर्ज रन	4.8	लागू नहीं	$0.005	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 13:28 · सूट बदला गया	4.7	9.6	10.0	4/19	1	3,957	$0.005	1.51s
2026-05-08 13:28 · सूट बदला गया	4.7	9.6	10.0	4/19	1	3,957	$0.005	1.51s
अंतर	0.0	0.0	0.0	0	0	0	$0.000	0ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.5-9BnonevsMiMo-V2.5none Qwen3.5-9BnonevsNorth Mini Codenoneनिःशुल्क उपलब्ध Qwen3.5-9BnonevsMistral Small 4medium Qwen3.5-9BnonevsMiniMax M2.7medium Qwen3.5-9BnonevsQwen3 Coder Nextnone Qwen3.5-9BnonevsLaguna S 2.1lowनिःशुल्क उपलब्ध Qwen3.5-9BnonevsMistral Small 4none Qwen3.5-9BnonevsDeepSeek V3.2none Qwen3.5-9BnonevsInklingnone Qwen3.5-9BnonevsGPT-4o-mininone

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.1	9.9
कोडिंग	5.2	3.4
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.4	9.9
निर्देश पालन	6.5	10.0
पहेली समाधान	3.1	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5-9B

Hamster playing table tennis

#131 Qwen3.5-9B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल