#104

Qwen3.6 27B

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-21 23:48 qwen/qwen3.6-27b::none

(medium) (none)

सारांश

Qwen3.6 27B AI BENCHY पर 5.8 स्कोर करता है और #104 पर है। इसकी reliability 10.0, pass rate 50.0%, कुल लागत $0.032, और औसत response time 3.87s है।

Qwen3.6 27B को अलग क्या बनाता है: यह डोमेन-विशिष्ट में सबसे अलग दिखता है, जहाँ इसकी रैंक #2 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #15 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

5.8

संगति

7.5

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.032

कुल आउटपुट टोकन

3,812

कुल इनपुट टोकन

इनपुट कीमत

$0.317 / 1M

आउटपुट कीमत

$3.200 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 50.0%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

3.87s

प्रतिक्रिया समय (अधिकतम): 12.08s

प्रतिक्रिया समय (कुल): 77.36s

गलत उत्तर: 10 निर्देशों का पालन नहीं किया: 2 अमान्य टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#104 Qwen3.6 27B

none

लागत: $0.009
समय: 83.0s
टोकन: 4,549 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 21:24 नया टेस्ट जोड़ा गया	5.5	10.0	$0.087 ↑	तुलना करें
2026-06-04 13:16 नया टेस्ट जोड़ा गया	5.6	10.0	$0.028 ↓	तुलना करें
2026-05-21 23:48 सूट बदला गया	5.8	10.0	$0.032	वर्तमान रन
2026-04-27 21:46 नया टेस्ट जोड़ा गया	6.0	10.0	$0.031	तुलना करें
2026-04-27 21:31 पहला दर्ज रन	5.9	10.0	$0.027	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-21 23:48 · सूट बदला गया	5.8	7.5	10.0	7/20	6	3,812	$0.032	3.87s
2026-04-27 21:31 · पहला दर्ज रन	5.9	6.9	10.0	4/11	4	2,924	$0.027	4.19s
अंतर	-0.2	+0.6	0.0	+3	+2	+888	+$0.006	-318ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.6 27BnonevsGLM 5.1none Qwen3.6 27BnonevsMiMo-V2.5-Pronone Qwen3.6 27BnonevsDeepSeek V4 Flashnone Qwen3.6 27BnonevsKimi K2.5none Qwen3.6 27BnonevsKAT-Coder-Air V2.5medium Qwen3.6 27BnonevsGemma 4 26B A4Bnoneनिःशुल्क उपलब्ध Qwen3.6 27BnonevsKAT-Coder-Air V2.5high Qwen3.6 27BnonevsLaguna S 2.1mediumनिःशुल्क उपलब्ध Qwen3.6 27BnonevsQwen3.5-122B-A10Bnone Qwen3.6 27BnonevsKAT-Coder-Air V2.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.8	3.7
कोडिंग	6.8	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	7.3	5.8
डोमेन-विशिष्ट	7.7	10.0
Samanya Buddhimatta	5.2	9.9
निर्देश पालन	6.2	5.8
पहेली समाधान	5.3	7.2
टूल कॉलिंग	9.5	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.6 27B

Hamster playing table tennis

#104 Qwen3.6 27B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल