AI BENCHY
Advertise here

#76

Qwen3.5-122B-A10B

Qwen প্রকাশ: 2026-02-24 পরীক্ষিত হয়েছে: 2026-04-11 01:44 qwen/qwen3.5-122b-a10b::none
(medium) (none)

ধারাবাহিকতা

9.2

নির্ভরযোগ্যতা

প্রযোজ্য নয়

মোট আউটপুট টোকেন

3,341

ইনপুট মূল্য

$0.260 / 1M

আউটপুট মূল্য

$2.080 / 1M

সঠিক টেস্ট

ভুল টেস্ট: 12

প্রতি চেষ্টায় পাস রেট: 38.9%

অস্থির টেস্ট

2

অস্থির টেস্টে রানভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)।

প্রতিক্রিয়া সময় (গড়)

3.69s

প্রতিক্রিয়া সময় (সর্বোচ্চ): 46.00s

প্রতিক্রিয়া সময় (মোট): 66.50s

রান ইতিহাস

পরীক্ষিত হয়েছে স্কোর নির্ভরযোগ্যতা সঠিক টেস্ট মোট খরচ তুলনা করুন
2026-05-21 23:57 স্যুইট পরিবর্তিত হয়েছে 5.4 10.0 $0.023 তুলনা করুন
2026-04-11 01:44 প্রথম নথিভুক্ত রান 5.7 প্রযোজ্য নয় $0.022 বর্তমান রান

রান তুলনা

রানস্কোরধারাবাহিকতানির্ভরযোগ্যতাসঠিক টেস্টঅস্থির টেস্টমোট আউটপুট টোকেনমোট খরচপ্রতিক্রিয়া সময় (গড়)
2026-04-11 01:44 · প্রথম নথিভুক্ত রান5.79.2প্রযোজ্য নয়6/1823,341$0.0223.69s
2026-05-21 23:57 · স্যুইট পরিবর্তিত হয়েছে5.49.210.06/2023,375$0.0233.38s
পার্থক্য+0.30.000-34-$0.002+312ms

এই দুই রান ভিন্ন বেঞ্চমার্ক স্যুইট ব্যবহার করেছে, তাই পার্থক্যগুলোতে মডেল পরিবর্তন এবং স্যুইট পরিবর্তন দুটোই ধরা পড়ে।

চার্ট

প্রথম মডেলটি নির্বাচন করুন, তারপর দ্বিতীয় মডেলে ক্লিক করে পাশাপাশি তুলনা পৃষ্ঠা খুলুন।

মোট আউটপুট টোকেন

স্কোর vs মোট আউটপুট টোকেন

দ্রুত তুলনা

বিভাগভিত্তিক বিশ্লেষণ

বিভাগ স্কোর ধারাবাহিকতা সঠিক টেস্ট
অ্যান্টি-এআই কৌশল 4.8 10.0
কোডিং 4.3 1.1
সমন্বিত 3.0 10.0
ডেটা পার্সিং ও নিষ্কাশন 10.0 10.0
ডোমেইন-নির্দিষ্ট 5.3 10.0
Sadharon Buddhimotta 5.0 10.0
নির্দেশনা অনুসরণ 4.5 6.8
ধাঁধা সমাধান 5.4 10.0
টুল কলিং 10.0 10.0

তুলনা করা মডেল