পরিবর্তনপঞ্জি

তারিখ অনুযায়ী সাজানো পণ্য ও বেঞ্চমার্ক আপডেটের একটি সহজ লগ। এখানে নতুনভাবে পরীক্ষিত মডেল, পুনঃপরীক্ষা, বেঞ্চমার্ক পরিবর্তন এবং প্রকাশিত UX/পণ্য কাজ নথিভুক্ত করা হয়।

2026-06-17

নতুন পরীক্ষিত মডেল: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
নতুন ফিচার: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
বাগ ফিক্স: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

নতুন পরীক্ষিত মডেল: Qwen3.7 Max Qwen 3.7 Max-এর জন্য বেঞ্চমার্ক কাভারেজ যোগ করা হয়েছে।
নতুন পরীক্ষা যোগ হয়েছে: C++ সমাধানে বাগ খোঁজার উপর দৃষ্টি নিবদ্ধ করে একটি নতুন Coding পরীক্ষা বিভাগ যোগ করা হয়েছে।

2026-05-21

নতুন পরীক্ষিত মডেল: Gemini 3.5 Flash, Grok Build 0.1 Google Gemini 3.5 Flash এবং xAI Grok Build 0.1-এর জন্য বেঞ্চমার্ক কাভারেজ যোগ করা হয়েছে।
বাগ ফিক্স: প্রোভাইডার যাচাইকরণে reasoning প্রয়োজন হওয়ার পর xAI Grok Build 0.1-এর অসমর্থিত no-reasoning ভ্যারিয়েন্ট সরানো হয়েছে।

2026-05-08

নতুন পরীক্ষিত মডেল: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
বাগ ফিক্স: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

নতুন পরীক্ষিত মডেল: Cobuddy Baidu CoBuddy-এর জন্য benchmark coverage যোগ করা হয়েছে।

2026-05-01

নতুন পরীক্ষিত মডেল: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 এবং IBM Granite 4.1 8B-এর জন্য benchmark coverage যোগ করা হয়েছে।

2026-04-30

নতুন পরীক্ষিত মডেল: Owl Alpha Owl Alpha-এর জন্য benchmark coverage যোগ করা হয়েছে।

2026-04-26

UX: মোবাইলে তুলনা ড্রপডাউনের অবস্থান উন্নত করা হয়েছে, মডেল পেজের লেআউট আরও ঘন করা হয়েছে, এবং রান ইতিহাস প্রতি-মডেল শার্ডে ভাগ করা হয়েছে যাতে পেজ কম ঐতিহাসিক ডেটা লোড করে।
বাগ ফিক্স: রান ইতিহাস এখন একই suite-এর কাছাকাছি-ডুপ্লিকেট পুনঃপরীক্ষাগুলো একত্র করে এবং মডেল পেজে সব পাবলিক রান সরাসরি তুলনা টেবিলে দেখায়।

2026-04-25

নতুন ফিচার: নির্ভরযোগ্যতা স্কোর টেলিমেট্রি যোগ করা হয়েছে, যাতে লক্ষ্য API ও রেট-লিমিট ব্যর্থতা ভুল উত্তরের থেকে আলাদাভাবে ট্র্যাক হয়।

2026-04-24

নতুন পরীক্ষিত মডেল: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash এবং DeepSeek V4 Pro-এর জন্য benchmark coverage যোগ করা হয়েছে।
নতুন পরীক্ষিত মডেল: GPT-5.5 OpenAI GPT-5.5-এর জন্য benchmark coverage যোগ করা হয়েছে।
বাগ ফিক্স: চেঞ্জলগের মডেল লিংকগুলো এখন ক্যানোনিকাল লাইভ মডেল পেজে যায়, আর মডেল পেজগুলো এখন reasoning variantগুলোর মধ্যেও একে অপরকে লিংক করে।

2026-04-23

নতুন পরীক্ষিত মডেল: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free-এর জন্য benchmark coverage যোগ করা হয়েছে।
নতুন ফিচার: রান ইতিহাস - মডেল পেজ এখন ঐতিহাসিক public run এবং পাশাপাশি run comparison টেবিল দেখায়। (উদাহরণ মডেল পেজ)
UX: লিডারবোর্ড এখন URL-ভিত্তিক pagination, filters এবং ranking list থেকে সরাসরি compare action সমর্থন করে।
বাগ ফিক্স: হোমপেজের search, filter count এবং pagination state এখন পুরো dataset জুড়ে একসঙ্গত থাকে।
পুনঃপরীক্ষা: GLM 5.1 এই মডেলের জন্য পুরো benchmark suite আবার চালানো হয়েছে এবং public run-history snapshot পরিষ্কার করা হয়েছে।
বাগ ফিক্স: যেসব মডেল আসলে retest করা হয়নি, তাদের নতুন tested_at timestamp দেওয়া বন্ধ করা হয়েছে।

চেঞ্জলগ পেজ তৈরি হয়েছে

এই চেঞ্জলগ চালুর পরে শুরু হয়েছে, তাই কিছু পুরোনো আপডেট এখানে নেই।

2026-02-15

প্রাথমিক রিলিজ