#37

Qwen3.6 27B

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-04-27 21:31 qwen/qwen3.6-27b::medium

(medium) (none)

सारांश

Qwen3.6 27B AI BENCHY पर 7.9 स्कोर करता है और #37 पर है। इसकी reliability 10.0, pass rate 77.8%, कुल लागत $0.043, और औसत response time 25.56s है।

Qwen3.6 27B को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

7.9

संगति

8.5

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.043

कुल आउटपुट टोकन

21,553

कुल इनपुट टोकन

इनपुट कीमत

$0.500 / 1M

आउटपुट कीमत

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 2

प्रति प्रयास पास दर: 77.8%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

25.56s

प्रतिक्रिया समय (अधिकतम): 47.48s

प्रतिक्रिया समय (कुल): 153.33s

कोई उत्तर नहीं: 1 गलत उत्तर: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#37 Qwen3.6 27B

medium

लागत: $0.009
समय: 39.6s
टोकन: 3,090 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:13 नया टेस्ट जोड़ा गया	6.5	10.0	$0.779 ↑	तुलना करें
2026-06-04 13:21 नया टेस्ट जोड़ा गया	6.8	10.0	$0.444 ↑	तुलना करें
2026-05-21 23:59 सूट बदला गया	6.6	9.9	$0.272	तुलना करें
2026-04-27 21:48 नया टेस्ट जोड़ा गया	7.0	10.0	$0.209	तुलना करें
2026-04-27 21:31 पहला दर्ज रन	7.9	10.0	$0.043	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-27 21:31 · पहला दर्ज रन	7.9	8.5	10.0	4/6	1	21,553	0	$0.043	25.56s
2026-06-04 13:21 · नया टेस्ट जोड़ा गया	6.8	8.2	10.0	10/21	5	138,710	39,376	$0.444	59.71s
अंतर	+1.1	+0.3	0.0	-6	-4	-117157	-39376	-$0.401	-34159ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Qwen3.6 27BmediumvsGemini 3.5 Flash-Litemedium Qwen3.6 27BmediumvsMiMo-V2.5medium Qwen3.6 27BmediumvsQwen3.6 Max Previewnone Qwen3.6 27BmediumvsLaguna XS 2.1mediumनिःशुल्क उपलब्ध Qwen3.6 27BmediumvsLongCat 2.0high Qwen3.6 27BmediumvsQwen3.5-27Bnone Qwen3.6 27BmediumvsGLM 5.2none Qwen3.6 27BmediumvsGemini 3.1 Flash Lite Previewlow Qwen3.6 27BmediumvsGemma 4 26B A4Bmediumनिःशुल्क उपलब्ध Qwen3.6 27BmediumvsGemini 3.1 Flash Litelow

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	4.3	1.2
डोमेन-विशिष्ट	3.0	10.0
निर्देश पालन	10.0	10.0
टूल कॉलिंग	10.0	10.0

Qwen3.6 27B

Hamster playing table tennis

#37 Qwen3.6 27B

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल