#101

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-21 23:47 qwen/qwen3.5-plus-20260420::none

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY पर 5.8 स्कोर करता है और #101 पर है। इसकी reliability 9.9, pass rate 43.3%, कुल लागत $0.041, और औसत response time 4.58s है।

Qwen3.5 Plus 2026-04-20 को अलग क्या बनाता है: यह डोमेन-विशिष्ट में सबसे अलग दिखता है, जहाँ इसकी रैंक #4 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #16 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

5.8

संगति

8.5

विश्वसनीयता

9.9

कुल लागत (वर्तमान कीमत)

$0.041

कुल आउटपुट टोकन

11,174

कुल इनपुट टोकन

इनपुट कीमत

$0.300 / 1M

आउटपुट कीमत

$1.800 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 43.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

4.58s

प्रतिक्रिया समय (अधिकतम): 33.34s

प्रतिक्रिया समय (कुल): 91.55s

गलत उत्तर: 11 निर्देशों का पालन नहीं किया: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#101 Qwen3.5 Plus 2026-04-20

none

लागत: $0.008
समय: 77.0s
टोकन: 4,369 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 21:27 नया टेस्ट जोड़ा गया	6.1	10.0	$0.122 ↓	तुलना करें
2026-06-04 13:10 नया टेस्ट जोड़ा गया	5.7	10.0	$0.032 ↓	तुलना करें
2026-05-21 23:47 सूट बदला गया	5.8	9.9	$0.041	वर्तमान रन
2026-05-08 13:10 सूट बदला गया	5.9	9.9	$0.040	तुलना करें
2026-05-08 13:10 सूट बदला गया	5.9	9.9	$0.040	तुलना करें
2026-04-27 23:05 पहला रन	5.8	9.8	$0.024	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	4.8	10.0
कोडिंग	4.4	6.7
संयुक्त	2.8	1.6
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	4.8	10.0
निर्देश पालन	6.2	5.8
पहेली समाधान	6.7	7.9
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#101 Qwen3.5 Plus 2026-04-20

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल