#34

Qwen3.5 Plus 2026-04-20

Qwen प्रकाशन: 2026-04-20 चाचणी तारीख: 2026-05-08 14:34 qwen/qwen3.5-plus-20260420::medium

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY वर 7.8 स्कोर करते आणि #34 वर आहे. याची reliability 9.6, pass rate 73.7%, एकूण खर्च $0.305, आणि सरासरी response time 35.96s आहे.

Qwen3.5 Plus 2026-04-20 खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर डोमेन-विशिष्ट हा सर्वात कमकुवत भाग आहे, rank #16.

स्कोअर

7.8

सुसंगतता

9.1

विश्वसनीयता

9.6

एकूण खर्च (सध्याची किंमत)

$0.305

एकूण आउटपुट टोकन्स

121,204

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.400 / 1M

आउटपुट किंमत

$2.400 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 6

प्रति प्रयत्न पास दर: 73.7%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

35.96s

प्रतिसाद वेळ (कमाल): 92.57s

प्रतिसाद वेळ (एकूण): 683.23s

चुकीचे उत्तर: 6

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Qwen3.5 Plus 2026-04-20

medium

खर्च: $0.008
वेळ: 76.7s
टोकन्स: 4,355 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:06 नवीन चाचणी जोडली	7.2	9.6	$0.317 ↓	तुलना करा
2026-06-04 13:15 नवीन चाचणी जोडली	7.6	9.9	$0.317 ↓	तुलना करा
2026-05-21 23:53 सूट बदलला	7.6	9.6	$0.363	तुलना करा
2026-05-08 14:34 सूट बदलला	7.8	9.6	$0.305	तुलना करा
2026-05-08 14:34 सूट बदलला	7.8	9.6	$0.305	सध्याची रन
2026-04-27 23:09 पहिला रन	8.2	9.7	$0.269	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-08 14:34 · सूट बदलला	7.8	9.1	9.6	13/19	2	121,204	$0.305	35.96s
2026-05-08 14:34 · सूट बदलला	7.8	9.1	9.6	13/19	2	121,204	$0.305	35.96s
फरक	0.0	0.0	0.0	0	0	0	$0.000	0ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	7.6	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.9	9.6
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#34 Qwen3.5 Plus 2026-04-20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स