#43

Qwen3.5 Plus 2026-04-20

Qwen प्रकाशन: 2026-04-20 चाचणी तारीख: 2026-05-21 23:53 qwen/qwen3.5-plus-20260420::medium

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY वर 7.6 स्कोर करते आणि #43 वर आहे. याची reliability 9.6, pass rate 71.7%, एकूण खर्च $0.363, आणि सरासरी response time 43.63s आहे.

स्कोअर

7.6

सुसंगतता

8.7

विश्वसनीयता

9.6

एकूण खर्च (सध्याची किंमत)

$0.363

एकूण आउटपुट टोकन्स

152,480

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.300 / 1M

आउटपुट किंमत

$1.800 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 7

प्रति प्रयत्न पास दर: 71.7%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

43.63s

प्रतिसाद वेळ (कमाल): 189.38s

प्रतिसाद वेळ (एकूण): 872.61s

चुकीचे उत्तर: 7

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#43 Qwen3.5 Plus 2026-04-20

medium

खर्च: $0.008
वेळ: 76.7s
टोकन्स: 4,355 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:06 नवीन चाचणी जोडली	7.2	9.6	$0.317 ↓	तुलना करा
2026-06-04 13:15 नवीन चाचणी जोडली	7.6	9.9	$0.317 ↓	तुलना करा
2026-05-21 23:53 सूट बदलला	7.6	9.6	$0.363	सध्याची रन
2026-05-08 14:34 सूट बदलला	7.8	9.6	$0.305	तुलना करा
2026-05-08 14:34 सूट बदलला	7.8	9.6	$0.305	तुलना करा
2026-04-27 23:09 पहिला रन	8.2	9.7	$0.269	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	5.4	6.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.9	9.6
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#43 Qwen3.5 Plus 2026-04-20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स