#34

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-08 14:34 qwen/qwen3.5-plus-20260420::medium

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY पर 7.8 स्कोर करता है और #34 पर है। इसकी reliability 9.6, pass rate 73.7%, कुल लागत $0.305, और औसत response time 35.96s है।

Qwen3.5 Plus 2026-04-20 को अलग क्या बनाता है: यह संयुक्त में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि डोमेन-विशिष्ट इसकी सबसे कमजोर जगह है, जहाँ यह #16 पर है।

स्कोर

7.8

संगति

9.1

विश्वसनीयता

9.6

कुल लागत (वर्तमान कीमत)

$0.305

कुल आउटपुट टोकन

121,204

कुल इनपुट टोकन

इनपुट कीमत

$0.400 / 1M

आउटपुट कीमत

$2.400 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 73.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

35.96s

प्रतिक्रिया समय (अधिकतम): 92.57s

प्रतिक्रिया समय (कुल): 683.23s

गलत उत्तर: 6

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Qwen3.5 Plus 2026-04-20

medium

लागत: $0.008
समय: 76.7s
टोकन: 4,355 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:06 नया टेस्ट जोड़ा गया	7.2	9.6	$0.317 ↓	तुलना करें
2026-06-04 13:15 नया टेस्ट जोड़ा गया	7.6	9.9	$0.317 ↓	तुलना करें
2026-05-21 23:53 सूट बदला गया	7.6	9.6	$0.363	तुलना करें
2026-05-08 14:34 सूट बदला गया	7.8	9.6	$0.305	तुलना करें
2026-05-08 14:34 सूट बदला गया	7.8	9.6	$0.305	वर्तमान रन
2026-04-27 23:09 पहला रन	8.2	9.7	$0.269	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-08 14:34 · सूट बदला गया	7.8	9.1	9.6	13/19	2	121,204	$0.305	35.96s
2026-05-21 23:53 · सूट बदला गया	7.6	8.7	9.6	13/20	3	152,480	$0.363	43.63s
अंतर	+0.2	+0.4	0.0	0	-1	-31276	-$0.058	-7671ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	7.6	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.9	9.6
निर्देश पालन	10.0	10.0
पहेली समाधान	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#34 Qwen3.5 Plus 2026-04-20

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल