#76

Qwen3.6 27B

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-04-27 21:46 qwen/qwen3.6-27b::none

(medium) (none)

सारांश

Qwen3.6 27B AI BENCHY पर 6.0 स्कोर करता है और #76 पर है। इसकी reliability 10.0, pass rate 55.6%, कुल लागत $0.031, और औसत response time 4.00s है।

Qwen3.6 27B को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

6.0

संगति

7.2

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.031

कुल आउटपुट टोकन

3,775

कुल इनपुट टोकन

इनपुट कीमत

$0.500 / 1M

आउटपुट कीमत

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 55.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

4.00s

प्रतिक्रिया समय (अधिकतम): 12.08s

प्रतिक्रिया समय (कुल): 72.01s

गलत उत्तर: 8 निर्देशों का पालन नहीं किया: 2 अमान्य टूल कॉल: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#76 Qwen3.6 27B

none

लागत: $0.009
समय: 83.0s
टोकन: 4,549 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 21:24 नया टेस्ट जोड़ा गया	5.5	10.0	$0.087 ↑	तुलना करें
2026-06-04 13:16 नया टेस्ट जोड़ा गया	5.6	10.0	$0.028 ↓	तुलना करें
2026-05-21 23:48 सूट बदला गया	5.8	10.0	$0.032	तुलना करें
2026-04-27 21:46 नया टेस्ट जोड़ा गया	6.0	10.0	$0.031	वर्तमान रन
2026-04-27 21:31 पहला दर्ज रन	5.9	10.0	$0.027	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-27 21:46 · नया टेस्ट जोड़ा गया	6.0	7.2	10.0	7/18	6	3,775	0	$0.031	4.00s
2026-06-04 13:16 · नया टेस्ट जोड़ा गया	5.6	7.6	10.0	7/21	6	3,812	52,721	$0.028	3.72s
अंतर	+0.4	-0.4	0.0	0	0	-37	-52721	+$0.003	+282ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.6 27BnonevsGLM 5.1none Qwen3.6 27BnonevsMiMo-V2.5-Pronone Qwen3.6 27BnonevsDeepSeek V4 Flashnone Qwen3.6 27BnonevsKimi K2.5none Qwen3.6 27BnonevsKAT-Coder-Air V2.5medium Qwen3.6 27BnonevsGemma 4 26B A4Bnoneनिःशुल्क उपलब्ध Qwen3.6 27BnonevsKAT-Coder-Air V2.5high Qwen3.6 27BnonevsLaguna S 2.1mediumनिःशुल्क उपलब्ध Qwen3.6 27BnonevsQwen3.5-122B-A10Bnone Qwen3.6 27BnonevsKAT-Coder-Air V2.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.8	3.7
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	7.3	5.8
डोमेन-विशिष्ट	7.7	10.0
Samanya Buddhimatta	5.2	9.9
निर्देश पालन	6.2	5.8
पहेली समाधान	5.3	7.2
टूल कॉलिंग	9.5	10.0

Qwen3.6 27B

Hamster playing table tennis

#76 Qwen3.6 27B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल