AI BENCHY
Advertise here

#42

Qwen3.5 Plus 2026-04-20

Qwen रिलीज़: 2026-04-20 परीक्षण किया गया: 2026-05-21 23:53 qwen/qwen3.5-plus-20260420::medium
(medium) (none)

संगति

8.7

कुल आउटपुट टोकन

152,480

???? ???

$0.300 / 1M

????? ???

$1.800 / 1M

सही परीक्षण

गलत टेस्ट: 7

प्रति प्रयास पास दर: 71.7%

अस्थिर टेस्ट

3

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

43.63s

प्रतिक्रिया समय (अधिकतम): 189.38s

प्रतिक्रिया समय (कुल): 872.61s

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-21 23:53 सूट बदला गया 7.6 9.6 $0.363 वर्तमान रन
2026-05-08 14:34 सूट बदला गया 7.8 9.6 $0.305 तुलना करें
2026-05-08 14:34 सूट बदला गया 7.8 9.6 $0.305 तुलना करें
2026-04-27 23:09 पहला रन 8.2 9.7 $0.269 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-21 23:53 · वर्तमान रन7.68.79.613/203152,480$0.36343.63s
2026-04-27 23:09 · पहला रन8.29.09.713/182106,011$0.26932.81s
अंतर-0.6-0.3-0.10+1+46469+$0.095+10816ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 10.0 10.0
कोडिंग 5.4 6.0
संयुक्त 10.0 10.0
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 2.9 7.2
Samanya Buddhimatta 4.9 9.6
निर्देश पालन 10.0 10.0
पहेली समाधान 8.2 7.2
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना किए गए मॉडल