AI BENCHY
Advertise here
#101

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-21 23:47 qwen/qwen3.5-plus-20260420::none
(medium) (none)

सारांश

Qwen3.5 Plus 2026-04-20 AI BENCHY पर 5.8 स्कोर करता है और #101 पर है। इसकी reliability 9.9, pass rate 43.3%, कुल लागत $0.041, और औसत response time 4.58s है।

Qwen3.5 Plus 2026-04-20 को अलग क्या बनाता है: यह डोमेन-विशिष्ट में सबसे अलग दिखता है, जहाँ इसकी रैंक #3 है; जबकि संयुक्त इसकी सबसे कमजोर जगह है, जहाँ यह #12 पर है।

संगति

8.5

कुल आउटपुट टोकन

11,174

कुल इनपुट टोकन

0

इनपुट कीमत

$0.300 / 1M

आउटपुट कीमत

$1.800 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 43.3%

अस्थिर टेस्ट

4

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

4.58s

प्रतिक्रिया समय (अधिकतम): 33.34s

प्रतिक्रिया समय (कुल): 91.55s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#101 Qwen3.5 Plus 2026-04-20

none
Cost
$0.008
Time
77.0s
Tokens
4,369 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-06-04 13:10 नया टेस्ट जोड़ा गया 5.7 10.0 $0.032 तुलना करें
2026-05-21 23:47 सूट बदला गया 5.8 9.9 $0.041 वर्तमान रन
2026-05-08 13:10 सूट बदला गया 5.9 9.9 $0.040 तुलना करें
2026-05-08 13:10 सूट बदला गया 5.9 9.9 $0.040 तुलना करें
2026-04-27 23:05 पहला रन 5.8 9.8 $0.024 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 4.8 10.0
कोडिंग 4.4 6.7
संयुक्त 2.8 1.6
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 5.3 10.0
Samanya Buddhimatta 4.8 10.0
निर्देश पालन 6.2 5.8
पहेली समाधान 6.7 7.9
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना किए गए मॉडल