AI BENCHY
Advertise here

AI BENCHY

سجل التغييرات

سجل بسيط لتحديثات المنتج والاختبارات، مجمعة حسب التاريخ. نستخدمه لتوثيق النماذج المختبرة حديثًا، وإعادات الاختبار، وتغييرات الاختبارات، والعمل المنتجّي وتجارب الاستخدام التي تم إطلاقها.

2026-05-08

  • نماذج جديدة تم اختبارها: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • إصلاح خطأ: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • تجربة الاستخدام: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • نماذج جديدة تم اختبارها: Cobuddy تمت إضافة تغطية benchmark لـ Baidu CoBuddy.

2026-05-01

  • نماذج جديدة تم اختبارها: Grok 4.3, Granite 4.1 8B تمت إضافة تغطية benchmark لـ xAI Grok 4.3 و IBM Granite 4.1 8B.

2026-04-30

  • نماذج جديدة تم اختبارها: Owl Alpha تمت إضافة تغطية benchmark لـ Owl Alpha.

2026-04-26

  • تجربة الاستخدام: حسّنا موضع قائمة المقارنة على الجوال، وجعلنا تخطيط صفحات النماذج أكثر إحكاما، وقسمنا سجل التشغيل إلى أجزاء لكل نموذج حتى تحمل الصفحات بيانات تاريخية أقل.
  • إصلاح خطأ: أصبح سجل التشغيل يجمع الآن عمليات إعادة الاختبار شبه المكررة لنفس الحزمة، ويعرض كل التشغيلات العامة في جدول مقارنة مباشر على صفحات النماذج.

2026-04-25

  • ميزة جديدة: أضفنا قياس درجة الموثوقية بحيث يتم تتبع إخفاقات واجهة API الهدف وحدود المعدل منفصلة عن الإجابات الخاطئة.

2026-04-24

  • نماذج جديدة تم اختبارها: DeepSeek V4 Flash, DeepSeek V4 Pro تمت إضافة تغطية benchmark لـ DeepSeek V4 Flash و DeepSeek V4 Pro.
  • نماذج جديدة تم اختبارها: GPT-5.5 تمت إضافة تغطية benchmark لـ OpenAI GPT-5.5.
  • إصلاح خطأ: أصبحت روابط النماذج في سجل التغييرات تشير الآن إلى صفحات النماذج الحية المعتمدة، كما أصبحت صفحات النماذج تربط بين متغيرات الاستدلال.

2026-04-23

  • نماذج جديدة تم اختبارها: inclusionai/ling-2.6-1t:free تمت إضافة تغطية benchmark لـ InclusionAI Ling 2.6 1T Free.
  • ميزة جديدة: سجل التشغيل - تعرض صفحات النماذج الآن عمليات التشغيل العامة السابقة وجدول مقارنة جنبًا إلى جنب بين التشغيلات. (صفحة نموذج مثال)
  • تجربة الاستخدام: يدعم ترتيب النتائج الآن ترقيم الصفحات والفلاتر المعتمدة على URL وإجراءات المقارنة المباشرة من قائمة الترتيب.
  • إصلاح خطأ: أصبح البحث في الصفحة الرئيسية وعدادات الفلاتر وحالة ترقيم الصفحات متسقًا الآن عبر كامل مجموعة البيانات.
  • إعادة اختبار: GLM 5.1 تمت إعادة تشغيل مجموعة benchmark الكاملة وتنظيف اللقطة العامة لسجل التشغيل لهذا النموذج.
  • إصلاح خطأ: تم منع النماذج غير المعاد اختبارها فعليًا من الحصول على طابع زمني tested_at جديد.

تم إنشاء صفحة سجل التغييرات

بدأ هذا السجل بعد الإطلاق، لذلك بعض التحديثات الأقدم غير موجودة هنا.

2026-02-15

  • الإصدار الأولي