AI BENCHY
Advertise here

AI BENCHY

পরিবর্তনপঞ্জি

তারিখ অনুযায়ী সাজানো পণ্য ও বেঞ্চমার্ক আপডেটের একটি সহজ লগ। এখানে নতুনভাবে পরীক্ষিত মডেল, পুনঃপরীক্ষা, বেঞ্চমার্ক পরিবর্তন এবং প্রকাশিত UX/পণ্য কাজ নথিভুক্ত করা হয়।

2026-05-08

  • নতুন পরীক্ষিত মডেল: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • বাগ ফিক্স: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • নতুন পরীক্ষিত মডেল: Cobuddy Baidu CoBuddy-এর জন্য benchmark coverage যোগ করা হয়েছে।

2026-05-01

  • নতুন পরীক্ষিত মডেল: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 এবং IBM Granite 4.1 8B-এর জন্য benchmark coverage যোগ করা হয়েছে।

2026-04-30

  • নতুন পরীক্ষিত মডেল: Owl Alpha Owl Alpha-এর জন্য benchmark coverage যোগ করা হয়েছে।

2026-04-26

  • UX: মোবাইলে তুলনা ড্রপডাউনের অবস্থান উন্নত করা হয়েছে, মডেল পেজের লেআউট আরও ঘন করা হয়েছে, এবং রান ইতিহাস প্রতি-মডেল শার্ডে ভাগ করা হয়েছে যাতে পেজ কম ঐতিহাসিক ডেটা লোড করে।
  • বাগ ফিক্স: রান ইতিহাস এখন একই suite-এর কাছাকাছি-ডুপ্লিকেট পুনঃপরীক্ষাগুলো একত্র করে এবং মডেল পেজে সব পাবলিক রান সরাসরি তুলনা টেবিলে দেখায়।

2026-04-25

  • নতুন ফিচার: নির্ভরযোগ্যতা স্কোর টেলিমেট্রি যোগ করা হয়েছে, যাতে লক্ষ্য API ও রেট-লিমিট ব্যর্থতা ভুল উত্তরের থেকে আলাদাভাবে ট্র্যাক হয়।

2026-04-24

  • নতুন পরীক্ষিত মডেল: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash এবং DeepSeek V4 Pro-এর জন্য benchmark coverage যোগ করা হয়েছে।
  • নতুন পরীক্ষিত মডেল: GPT-5.5 OpenAI GPT-5.5-এর জন্য benchmark coverage যোগ করা হয়েছে।
  • বাগ ফিক্স: চেঞ্জলগের মডেল লিংকগুলো এখন ক্যানোনিকাল লাইভ মডেল পেজে যায়, আর মডেল পেজগুলো এখন reasoning variantগুলোর মধ্যেও একে অপরকে লিংক করে।

2026-04-23

  • নতুন পরীক্ষিত মডেল: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free-এর জন্য benchmark coverage যোগ করা হয়েছে।
  • নতুন ফিচার: রান ইতিহাস - মডেল পেজ এখন ঐতিহাসিক public run এবং পাশাপাশি run comparison টেবিল দেখায়। (উদাহরণ মডেল পেজ)
  • UX: লিডারবোর্ড এখন URL-ভিত্তিক pagination, filters এবং ranking list থেকে সরাসরি compare action সমর্থন করে।
  • বাগ ফিক্স: হোমপেজের search, filter count এবং pagination state এখন পুরো dataset জুড়ে একসঙ্গত থাকে।
  • পুনঃপরীক্ষা: GLM 5.1 এই মডেলের জন্য পুরো benchmark suite আবার চালানো হয়েছে এবং public run-history snapshot পরিষ্কার করা হয়েছে।
  • বাগ ফিক্স: যেসব মডেল আসলে retest করা হয়নি, তাদের নতুন tested_at timestamp দেওয়া বন্ধ করা হয়েছে।

চেঞ্জলগ পেজ তৈরি হয়েছে

এই চেঞ্জলগ চালুর পরে শুরু হয়েছে, তাই কিছু পুরোনো আপডেট এখানে নেই।

2026-02-15

  • প্রাথমিক রিলিজ