تبدیلی لاگ

مصنوعہ اور بینچ مارک اپڈیٹس کا ایک سادہ لاگ، تاریخ کے مطابق گروپ کیا گیا۔ ہم اسے نئے ٹیسٹ کیے گئے ماڈلز، دوبارہ ٹیسٹ، بینچ مارک تبدیلیوں، اور جاری کی گئی UX/پروڈکٹ اپڈیٹس کو نوٹ کرنے کے لیے استعمال کرتے ہیں۔

2026-06-17

نئے ٹیسٹ کیے گئے ماڈلز: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
نئی خصوصیت: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
بگ فکس: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

نئے ٹیسٹ کیے گئے ماڈلز: Qwen3.7 Max Qwen 3.7 Max کے لیے بینچ مارک کوریج شامل کی گئی۔
نئے ٹیسٹ شامل کیے گئے: C++ کے حل میں کیڑے تلاش کرنے پر مرکوز ایک نیا Coding ٹیسٹ زمرہ شامل کیا گیا۔

2026-05-21

نئے ٹیسٹ کیے گئے ماڈلز: Gemini 3.5 Flash, Grok Build 0.1 Google Gemini 3.5 Flash اور xAI Grok Build 0.1 کے لیے بینچ مارک کوریج شامل کی گئی۔
بگ فکس: Provider validation کی طرف سے reasoning لازم قرار دینے کے بعد xAI Grok Build 0.1 کا غیر معاون no-reasoning ویریئنٹ ہٹا دیا گیا۔

2026-05-08

نئے ٹیسٹ کیے گئے ماڈلز: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
بگ فکس: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

نئے ٹیسٹ کیے گئے ماڈلز: Cobuddy Baidu CoBuddy کے لیے benchmark coverage شامل کی گئی۔

2026-05-01

نئے ٹیسٹ کیے گئے ماڈلز: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 اور IBM Granite 4.1 8B کے لیے benchmark coverage شامل کی گئی۔

2026-04-30

نئے ٹیسٹ کیے گئے ماڈلز: Owl Alpha Owl Alpha کے لیے benchmark coverage شامل کی گئی۔

2026-04-26

UX: موبائل پر موازنہ ڈراپ ڈاؤن کی جگہ بہتر کی، ماڈل پیج لے آؤٹ کو زیادہ مختصر کیا، اور رن ہسٹری کو ہر ماڈل کے شاردز میں تقسیم کیا تاکہ صفحات کم تاریخی ڈیٹا لوڈ کریں۔
بگ فکس: رن ہسٹری اب اسی suite کے قریباً ڈپلیکیٹ ری ٹیسٹس کو گروپ کرتی ہے اور ماڈل صفحات پر تمام عوامی رنز کو براہ راست موازنہ جدول میں دکھاتی ہے۔

2026-04-25

نئی خصوصیت: اعتماد پذیری اسکور ٹیلیمیٹری شامل کی گئی تاکہ ہدف API اور ریٹ لمٹ ناکامیاں غلط جوابات سے الگ ٹریک ہوں۔

2026-04-24

نئے ٹیسٹ کیے گئے ماڈلز: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash اور DeepSeek V4 Pro کے لیے benchmark coverage شامل کی گئی۔
نئے ٹیسٹ کیے گئے ماڈلز: GPT-5.5 OpenAI GPT-5.5 کے لیے benchmark coverage شامل کی گئی۔
بگ فکس: چینج لاگ میں ماڈل لنکس اب معیاری لائیو ماڈل صفحات پر جاتے ہیں، اور ماڈل صفحات اب reasoning variants کے درمیان بھی لنک دیتے ہیں۔

2026-04-23

نئے ٹیسٹ کیے گئے ماڈلز: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free کے لیے benchmark coverage شامل کی گئی۔
نئی خصوصیت: رن ہسٹری - ماڈل صفحات اب تاریخی public runs اور side-by-side run comparison جدول دکھاتے ہیں۔ (مثالی ماڈل صفحہ)
UX: لیڈر بورڈ اب URL-based pagination، filters اور ranking list سے direct compare actions کو support کرتا ہے۔
بگ فکس: ہوم پیج search، filter counts اور pagination state اب پورے dataset میں ایک جیسی رہتی ہے۔
دوبارہ ٹیسٹ: GLM 5.1 اس ماڈل کے لیے مکمل benchmark suite دوبارہ چلائی گئی اور public run-history snapshot صاف کیا گیا۔
بگ فکس: جن ماڈلز کا حقیقت میں retest نہیں ہوا، انہیں نیا tested_at timestamp ملنا بند کر دیا گیا۔

چینج لاگ صفحہ بنایا گیا

یہ چینج لاگ لانچ کے بعد شروع ہوا، اس لیے کچھ پرانی اپڈیٹس یہاں موجود نہیں ہیں۔

2026-02-15

ابتدائی ریلیز