#43

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-21 23:53 qwen/qwen3.5-plus-20260420::medium

(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY पर 7.6 स्कोर करता है और #43 पर है। इसकी reliability 9.6, pass rate 71.7%, कुल लागत $0.363, और औसत response time 43.63s है।

स्कोर

7.6

संगति

8.7

विश्वसनीयता

9.6

कुल लागत (वर्तमान कीमत)

$0.363

कुल आउटपुट टोकन

152,480

कुल इनपुट टोकन

इनपुट कीमत

$0.300 / 1M

आउटपुट कीमत

$1.800 / 1M

सही परीक्षण

गलत टेस्ट: 7

प्रति प्रयास पास दर: 71.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

43.63s

प्रतिक्रिया समय (अधिकतम): 189.38s

प्रतिक्रिया समय (कुल): 872.61s

गलत उत्तर: 7

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#43 Qwen3.5 Plus 2026-04-20

medium

लागत: $0.008
समय: 76.7s
टोकन: 4,355 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:06 नया टेस्ट जोड़ा गया	7.2	9.6	$0.317 ↓	तुलना करें
2026-06-04 13:15 नया टेस्ट जोड़ा गया	7.6	9.9	$0.317 ↓	तुलना करें
2026-05-21 23:53 सूट बदला गया	7.6	9.6	$0.363	वर्तमान रन
2026-05-08 14:34 सूट बदला गया	7.8	9.6	$0.305	तुलना करें
2026-05-08 14:34 सूट बदला गया	7.8	9.6	$0.305	तुलना करें
2026-04-27 23:09 पहला रन	8.2	9.7	$0.269	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-21 23:53 · सूट बदला गया	7.6	8.7	9.6	13/20	3	152,480	$0.363	43.63s
2026-05-08 14:34 · सूट बदला गया	7.8	9.1	9.6	13/19	2	121,204	$0.305	35.96s
अंतर	-0.2	-0.4	0.0	0	+1	+31276	+$0.058	+7671ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	5.4	6.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.9	9.6
निर्देश पालन	10.0	10.0
पहेली समाधान	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#43 Qwen3.5 Plus 2026-04-20

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल