#88

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-04-27 23:05 qwen/qwen3.5-plus-20260420::none

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY पर 5.8 स्कोर करता है और #88 पर है। इसकी reliability 9.8, pass rate 42.6%, कुल लागत $0.024, और औसत response time 3.18s है।

Qwen3.5 Plus 2026-04-20 को अलग क्या बनाता है: यह डोमेन-विशिष्ट में सबसे अलग दिखता है, जहाँ इसकी रैंक #3 है; जबकि संयुक्त इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

5.8

संगति

8.3

विश्वसनीयता

9.8

कुल लागत (वर्तमान कीमत)

$0.024

कुल आउटपुट टोकन

4,645

कुल इनपुट टोकन

इनपुट कीमत

$0.400 / 1M

आउटपुट कीमत

$2.400 / 1M

सही परीक्षण

गलत टेस्ट: 12

प्रति प्रयास पास दर: 42.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

3.18s

प्रतिक्रिया समय (अधिकतम): 13.32s

प्रतिक्रिया समय (कुल): 57.24s

गलत उत्तर: 10 निर्देशों का पालन नहीं किया: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#88 Qwen3.5 Plus 2026-04-20

none

लागत: $0.008
समय: 77.0s
टोकन: 4,369 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 21:27 नया टेस्ट जोड़ा गया	6.1	10.0	$0.122 ↓	तुलना करें
2026-06-04 13:10 नया टेस्ट जोड़ा गया	5.7	10.0	$0.032 ↓	तुलना करें
2026-05-21 23:47 सूट बदला गया	5.8	9.9	$0.041	तुलना करें
2026-05-08 13:10 सूट बदला गया	5.9	9.9	$0.040	तुलना करें
2026-05-08 13:10 सूट बदला गया	5.9	9.9	$0.040	तुलना करें
2026-04-27 23:05 पहला रन	5.8	9.8	$0.024	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-27 23:05 · पहला रन	5.8	8.3	9.8	6/18	4	4,645	$0.024	3.18s
2026-05-21 23:47 · सूट बदला गया	5.8	8.5	9.9	7/20	4	11,174	$0.041	4.58s
अंतर	0.0	-0.2	-0.1	-1	0	-6529	-$0.018	-1397ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	4.8	10.0
कोडिंग	5.3	3.4
संयुक्त	2.8	1.6
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	4.8	10.0
निर्देश पालन	6.2	5.8
पहेली समाधान	4.8	7.9
टूल कॉलिंग	10.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#88 Qwen3.5 Plus 2026-04-20

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल