#20

Qwen3.5 Plus 2026-04-20

Qwen প্রকাশ: 2026-04-20 পরীক্ষিত হয়েছে: 2026-04-27 23:09 qwen/qwen3.5-plus-20260420::medium

(medium) (none)

সারাংশ

Qwen3.5 Plus 2026-04-20 AI BENCHY-তে 8.2 স্কোর করে এবং #20 স্থানে আছে। এর reliability 9.7, pass rate 77.8%, মোট খরচ $0.269, এবং গড় response time 32.81s.

Qwen3.5 Plus 2026-04-20 কে আলাদা করে যা: এই score range-এর জন্য মোট benchmark খরচ অস্বাভাবিকভাবে কম।

স্কোর

8.2

ধারাবাহিকতা

9.0

নির্ভরযোগ্যতা

9.7

মোট খরচ (বর্তমান মূল্য)

$0.269

মোট আউটপুট টোকেন

106,011

মোট ইনপুট টোকেন

ইনপুট মূল্য

$0.400 / 1M

আউটপুট মূল্য

$2.400 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 5

প্রতি চেষ্টায় পাস রেট: 77.8%

অস্থির টেস্ট

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

32.81s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 92.41s

প্রতিক্রিয়া সময় (মোট): 590.65s

ভুল উত্তর: 5

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 Qwen3.5 Plus 2026-04-20

medium

খরচ: $0.008
সময়: 76.7s
টোকেন: 4,355 tok

রান ইতিহাস

পরীক্ষিত হয়েছে	স্কোর	নির্ভরযোগ্যতা	মোট খরচ	তুলনা করুন
2026-07-16 22:06 নতুন টেস্ট যোগ হয়েছে	7.2	9.6	$0.317 ↓	তুলনা করুন
2026-06-04 13:15 নতুন টেস্ট যোগ হয়েছে	7.6	9.9	$0.317 ↓	তুলনা করুন
2026-05-21 23:53 স্যুইট পরিবর্তিত হয়েছে	7.6	9.6	$0.363	তুলনা করুন
2026-05-08 14:34 স্যুইট পরিবর্তিত হয়েছে	7.8	9.6	$0.305	তুলনা করুন
2026-05-08 14:34 স্যুইট পরিবর্তিত হয়েছে	7.8	9.6	$0.305	তুলনা করুন
2026-04-27 23:09 প্রথম রান	8.2	9.7	$0.269	বর্তমান রান

রান তুলনা

রান	স্কোর	ধারাবাহিকতা	নির্ভরযোগ্যতা	সঠিক টেস্ট	অস্থির টেস্ট	মোট আউটপুট টোকেন	মোট খরচ	প্রতিক্রিয়া সময় (গড়)
2026-04-27 23:09 · প্রথম রান	8.2	9.0	9.7	13/18	2	106,011	$0.269	32.81s
2026-05-21 23:53 · স্যুইট পরিবর্তিত হয়েছে	7.6	8.7	9.6	13/20	3	152,480	$0.363	43.63s
পার্থক্য	+0.6	+0.3	+0.1	0	-1	-46469	-$0.095	-10816ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ	স্কোর	ধারাবাহিকতা
অ্যান্টি-এআই কৌশল	10.0	10.0
কোডিং	10.0	10.0
সমন্বিত	10.0	10.0
ডেটা পার্সিং ও নিষ্কাশন	10.0	10.0
ডোমেইন-নির্দিষ্ট	2.9	7.2
Sadharon Buddhimotta	4.9	9.6
নির্দেশনা অনুসরণ	10.0	10.0
ধাঁধা সমাধান	8.2	7.2
টুল কলিং	10.0	10.0

Qwen3.5 Plus 2026-04-20

Hamster playing table tennis

#20 Qwen3.5 Plus 2026-04-20

চার্ট

স্কোর অনুযায়ী শীর্ষ মডেল

স্কোর vs মোট খরচ

প্রতিক্রিয়া সময় (গড়)

স্কোর vs প্রতিক্রিয়া সময় (গড়)

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

তুলনা করা মডেল