#78

Qwen3.6 27B

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-04-27 21:31 qwen/qwen3.6-27b::none

(medium) (none)

सारांश

Qwen3.6 27B AI BENCHY पर 5.9 स्कोर करता है और #78 पर है। इसकी reliability 10.0, pass rate 54.6%, कुल लागत $0.027, और औसत response time 4.19s है।

Qwen3.6 27B को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

5.9

संगति

6.9

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.027

कुल आउटपुट टोकन

2,924

कुल इनपुट टोकन

इनपुट कीमत

$0.500 / 1M

आउटपुट कीमत

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 7

प्रति प्रयास पास दर: 54.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

4.19s

प्रतिक्रिया समय (अधिकतम): 10.18s

प्रतिक्रिया समय (कुल): 46.05s

गलत उत्तर: 5 निर्देशों का पालन नहीं किया: 1 अमान्य टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#78 Qwen3.6 27B

none

लागत: $0.009
समय: 83.0s
टोकन: 4,549 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 21:24 नया टेस्ट जोड़ा गया	5.5	10.0	$0.087 ↑	तुलना करें
2026-06-04 13:16 नया टेस्ट जोड़ा गया	5.6	10.0	$0.028 ↓	तुलना करें
2026-05-21 23:48 सूट बदला गया	5.8	10.0	$0.032	तुलना करें
2026-04-27 21:46 नया टेस्ट जोड़ा गया	6.0	10.0	$0.031	तुलना करें
2026-04-27 21:31 पहला दर्ज रन	5.9	10.0	$0.027	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-27 21:31 · पहला दर्ज रन	5.9	6.9	10.0	4/11	4	2,924	$0.027	4.19s
2026-04-27 21:46 · नया टेस्ट जोड़ा गया	6.0	7.2	10.0	7/18	6	3,775	$0.031	4.00s
अंतर	-0.1	-0.3	0.0	-3	-2	-851	-$0.004	+186ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.6 27BnonevsGLM 5.1none Qwen3.6 27BnonevsMiMo-V2.5-Pronone Qwen3.6 27BnonevsDeepSeek V4 Flashnone Qwen3.6 27BnonevsKimi K2.5none Qwen3.6 27BnonevsKAT-Coder-Air V2.5medium Qwen3.6 27BnonevsGemma 4 26B A4Bnoneनिःशुल्क उपलब्ध Qwen3.6 27BnonevsKAT-Coder-Air V2.5high Qwen3.6 27BnonevsLaguna S 2.1mediumनिःशुल्क उपलब्ध Qwen3.6 27BnonevsQwen3.5-122B-A10Bnone Qwen3.6 27BnonevsKAT-Coder-Air V2.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	4.0	1.6
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	9.9	10.0
डोमेन-विशिष्ट	6.5	10.0
Samanya Buddhimatta	5.2	9.9
निर्देश पालन	2.8	1.6
टूल कॉलिंग	9.5	10.0

Qwen3.6 27B

Hamster playing table tennis

#78 Qwen3.6 27B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल