AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

تبدیلی لاگ

مصنوعہ اور بینچ مارک اپڈیٹس کا ایک سادہ لاگ، تاریخ کے مطابق گروپ کیا گیا۔ ہم اسے نئے ٹیسٹ کیے گئے ماڈلز، دوبارہ ٹیسٹ، بینچ مارک تبدیلیوں، اور جاری کی گئی UX/پروڈکٹ اپڈیٹس کو نوٹ کرنے کے لیے استعمال کرتے ہیں۔

2026-05-06

  • نئے ٹیسٹ کیے گئے ماڈلز: Cobuddy Baidu CoBuddy کے لیے benchmark coverage شامل کی گئی۔

2026-05-01

  • نئے ٹیسٹ کیے گئے ماڈلز: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 اور IBM Granite 4.1 8B کے لیے benchmark coverage شامل کی گئی۔

2026-04-30

  • نئے ٹیسٹ کیے گئے ماڈلز: Owl Alpha Owl Alpha کے لیے benchmark coverage شامل کی گئی۔

2026-04-26

  • UX: موبائل پر موازنہ ڈراپ ڈاؤن کی جگہ بہتر کی، ماڈل پیج لے آؤٹ کو زیادہ مختصر کیا، اور رن ہسٹری کو ہر ماڈل کے شاردز میں تقسیم کیا تاکہ صفحات کم تاریخی ڈیٹا لوڈ کریں۔
  • بگ فکس: رن ہسٹری اب اسی suite کے قریباً ڈپلیکیٹ ری ٹیسٹس کو گروپ کرتی ہے اور ماڈل صفحات پر تمام عوامی رنز کو براہ راست موازنہ جدول میں دکھاتی ہے۔

2026-04-25

  • نئی خصوصیت: اعتماد پذیری اسکور ٹیلیمیٹری شامل کی گئی تاکہ ہدف API اور ریٹ لمٹ ناکامیاں غلط جوابات سے الگ ٹریک ہوں۔

2026-04-24

  • نئے ٹیسٹ کیے گئے ماڈلز: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash اور DeepSeek V4 Pro کے لیے benchmark coverage شامل کی گئی۔
  • نئے ٹیسٹ کیے گئے ماڈلز: GPT-5.5 OpenAI GPT-5.5 کے لیے benchmark coverage شامل کی گئی۔
  • بگ فکس: چینج لاگ میں ماڈل لنکس اب معیاری لائیو ماڈل صفحات پر جاتے ہیں، اور ماڈل صفحات اب reasoning variants کے درمیان بھی لنک دیتے ہیں۔

2026-04-23

  • نئے ٹیسٹ کیے گئے ماڈلز: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free کے لیے benchmark coverage شامل کی گئی۔
  • نئی خصوصیت: رن ہسٹری - ماڈل صفحات اب تاریخی public runs اور side-by-side run comparison جدول دکھاتے ہیں۔ (مثالی ماڈل صفحہ)
  • UX: لیڈر بورڈ اب URL-based pagination، filters اور ranking list سے direct compare actions کو support کرتا ہے۔
  • بگ فکس: ہوم پیج search، filter counts اور pagination state اب پورے dataset میں ایک جیسی رہتی ہے۔
  • دوبارہ ٹیسٹ: GLM 5.1 اس ماڈل کے لیے مکمل benchmark suite دوبارہ چلائی گئی اور public run-history snapshot صاف کیا گیا۔
  • بگ فکس: جن ماڈلز کا حقیقت میں retest نہیں ہوا، انہیں نیا tested_at timestamp ملنا بند کر دیا گیا۔

چینج لاگ صفحہ بنایا گیا

یہ چینج لاگ لانچ کے بعد شروع ہوا، اس لیے کچھ پرانی اپڈیٹس یہاں موجود نہیں ہیں۔

2026-02-15

  • ابتدائی ریلیز