#20

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-04-27 23:09 qwen/qwen3.5-plus-20260420::medium

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY पर 8.2 स्कोर करता है और #20 पर है। इसकी reliability 9.7, pass rate 77.8%, कुल लागत $0.269, और औसत response time 32.81s है।

Qwen3.5 Plus 2026-04-20 को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

8.2

संगति

9.0

विश्वसनीयता

9.7

कुल लागत (वर्तमान कीमत)

$0.269

कुल आउटपुट टोकन

106,011

कुल इनपुट टोकन

इनपुट कीमत

$0.400 / 1M

आउटपुट कीमत

$2.400 / 1M

सही परीक्षण

गलत टेस्ट: 5

प्रति प्रयास पास दर: 77.8%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

32.81s

प्रतिक्रिया समय (अधिकतम): 92.41s

प्रतिक्रिया समय (कुल): 590.65s

गलत उत्तर: 5

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 Qwen3.5 Plus 2026-04-20

medium

लागत: $0.008
समय: 76.7s
टोकन: 4,355 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:06 नया टेस्ट जोड़ा गया	7.2	9.6	$0.317 ↓	तुलना करें
2026-06-04 13:15 नया टेस्ट जोड़ा गया	7.6	9.9	$0.317 ↓	तुलना करें
2026-05-21 23:53 सूट बदला गया	7.6	9.6	$0.363	तुलना करें
2026-05-08 14:34 सूट बदला गया	7.8	9.6	$0.305	तुलना करें
2026-05-08 14:34 सूट बदला गया	7.8	9.6	$0.305	तुलना करें
2026-04-27 23:09 पहला रन	8.2	9.7	$0.269	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-27 23:09 · पहला रन	8.2	9.0	9.7	13/18	2	106,011	$0.269	32.81s
2026-05-08 14:34 · सूट बदला गया	7.8	9.1	9.6	13/19	2	121,204	$0.305	35.96s
अंतर	+0.4	-0.1	+0.1	0	0	-15193	-$0.037	-3145ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.9	9.6
निर्देश पालन	10.0	10.0
पहेली समाधान	8.2	7.2
टूल कॉलिंग	10.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#20 Qwen3.5 Plus 2026-04-20

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल