#101

Qwen3.5 Plus 2026-04-20

Qwen প্রকাশ: 2026-04-20 পরীক্ষিত হয়েছে: 2026-05-21 23:47 qwen/qwen3.5-plus-20260420::none

(medium) (none)

সারাংশ

Qwen3.5 Plus 2026-04-20 AI BENCHY-তে 5.8 স্কোর করে এবং #101 স্থানে আছে। এর reliability 9.9, pass rate 43.3%, মোট খরচ $0.041, এবং গড় response time 4.58s.

Qwen3.5 Plus 2026-04-20 কে আলাদা করে যা: এটি ডোমেইন-নির্দিষ্ট-তে সবচেয়ে ভালোভাবে নজর কাড়ে, যেখানে এর rank #4; আর অ্যান্টি-এআই কৌশল এর দুর্বলতম ক্ষেত্র, rank #16. এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

5.8

ধারাবাহিকতা

8.5

নির্ভরযোগ্যতা

9.9

মোট খরচ (বর্তমান মূল্য)

$0.041

মোট আউটপুট টোকেন

11,174

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.300 / 1M

আউটপুট মূল্য

$1.800 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 13

প্রতি চেষ্টায় পাস রেট: 43.3%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

4.58s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 33.34s

প্রতিক্রিয়া সময় (মোট): 91.55s

ভুল উত্তর: 11 নির্দেশনা অনুসরণ করা হয়নি: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#101 Qwen3.5 Plus 2026-04-20

none

খরচ: $0.008
সময়: 77.0s
টোকেন: 4,369 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 21:27 নতুন টেস্ট যোগ হয়েছে	6.1	10.0	$0.122 ↓	তুলনা করুন
2026-06-04 13:10 নতুন টেস্ট যোগ হয়েছে	5.7	10.0	$0.032 ↓	তুলনা করুন
2026-05-21 23:47 স্যুইট পরিবর্তিত হয়েছে	5.8	9.9	$0.041	বর্তমান রান
2026-05-08 13:10 স্যুইট পরিবর্তিত হয়েছে	5.9	9.9	$0.040	তুলনা করুন
2026-05-08 13:10 স্যুইট পরিবর্তিত হয়েছে	5.9	9.9	$0.040	তুলনা করুন
2026-04-27 23:05 প্রথম রান	5.8	9.8	$0.024	তুলনা করুন

এই রানটি ভিন্ন একটি বেঞ্চমার্ক স্যুইট ব্যবহার করেছে। ঐতিহাসিক পরিবর্তন পড়ার সময় স্যুইট পরিবর্তনও মাথায় রাখুন।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	4.8	10.0
কোডিং	4.4	6.7
সমন্বিত	2.8	1.6
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	5.3	10.0
Sadharon Buddhimotta	4.8	10.0
নির্দেশনা অনুসরণ	6.2	5.8
ধাঁধা সমাধান	6.7	7.9
টুল কলিং	10.0	10.0
সাধারণ জ্ঞান	3.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#101 Qwen3.5 Plus 2026-04-20

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল