#37

Qwen3.6 27B

Qwen प्रकाशन: 2026-04-20 चाचणी तारीख: 2026-04-27 21:31 qwen/qwen3.6-27b::medium

(medium) (none)

सारांश

Qwen3.6 27B AI BENCHY वर 7.9 स्कोर करते आणि #37 वर आहे. याची reliability 10.0, pass rate 77.8%, एकूण खर्च $0.043, आणि सरासरी response time 25.56s आहे.

Qwen3.6 27B खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

7.9

सुसंगतता

8.5

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.043

एकूण आउटपुट टोकन्स

21,553

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.500 / 1M

आउटपुट किंमत

$2.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 2

प्रति प्रयत्न पास दर: 77.8%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

25.56s

प्रतिसाद वेळ (कमाल): 47.48s

प्रतिसाद वेळ (एकूण): 153.33s

उत्तर नाही: 1 चुकीचे उत्तर: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#37 Qwen3.6 27B

medium

खर्च: $0.009
वेळ: 39.6s
टोकन्स: 3,090 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:13 नवीन चाचणी जोडली	6.5	10.0	$0.779 ↑	तुलना करा
2026-06-04 13:21 नवीन चाचणी जोडली	6.8	10.0	$0.444 ↑	तुलना करा
2026-05-21 23:59 सूट बदलला	6.6	9.9	$0.272	तुलना करा
2026-04-27 21:48 नवीन चाचणी जोडली	7.0	10.0	$0.209	तुलना करा
2026-04-27 21:31 पहिली नोंदलेली रन	7.9	10.0	$0.043	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-27 21:31 · पहिली नोंदलेली रन	7.9	8.5	10.0	4/6	1	21,553	0	$0.043	25.56s
2026-06-04 13:21 · नवीन चाचणी जोडली	6.8	8.2	10.0	10/21	5	138,710	39,376	$0.444	59.71s
फरक	+1.1	+0.3	0.0	-6	-4	-117157	-39376	-$0.401	-34159ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Qwen3.6 27BmediumvsGemini 3.5 Flash-Litemedium Qwen3.6 27BmediumvsMiMo-V2.5medium Qwen3.6 27BmediumvsQwen3.6 Max Previewnone Qwen3.6 27BmediumvsLaguna XS 2.1mediumमोफत उपलब्ध Qwen3.6 27BmediumvsLongCat 2.0high Qwen3.6 27BmediumvsQwen3.5-27Bnone Qwen3.6 27BmediumvsGLM 5.2none Qwen3.6 27BmediumvsGemini 3.1 Flash Lite Previewlow Qwen3.6 27BmediumvsGemma 4 26B A4Bmediumमोफत उपलब्ध Qwen3.6 27BmediumvsGemini 3.1 Flash Litelow

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	4.3	1.2
डोमेन-विशिष्ट	3.0	10.0
सूचनांचे पालन	10.0	10.0
टूल कॉलिंग	10.0	10.0

Qwen3.6 27B

Hamster playing table tennis

#37 Qwen3.6 27B

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स