سجل التغييرات

سجل بسيط لتحديثات المنتج والاختبارات، مجمعة حسب التاريخ. نستخدمه لتوثيق النماذج المختبرة حديثًا، وإعادات الاختبار، وتغييرات الاختبارات، والعمل المنتجّي وتجارب الاستخدام التي تم إطلاقها.

2026-06-17

نماذج جديدة تم اختبارها: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
ميزة جديدة: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
إصلاح خطأ: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
تجربة الاستخدام: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

نماذج جديدة تم اختبارها: Qwen3.7 Max تمت إضافة تغطية benchmark لـ Qwen 3.7 Max.
اختبارات جديدة أُضيفت: تمت إضافة فئة اختبار Coding جديدة تركز على اكتشاف الأخطاء في حلول C++.

2026-05-21

نماذج جديدة تم اختبارها: Gemini 3.5 Flash, Grok Build 0.1 تمت إضافة تغطية المعيار لـ Google Gemini 3.5 Flash و xAI Grok Build 0.1.
إصلاح خطأ: تمت إزالة متغير xAI Grok Build 0.1 غير المدعوم من دون reasoning بعد أن طلب تحقق المزود تفعيل reasoning.

2026-05-08

نماذج جديدة تم اختبارها: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
إصلاح خطأ: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
تجربة الاستخدام: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

نماذج جديدة تم اختبارها: Cobuddy تمت إضافة تغطية benchmark لـ Baidu CoBuddy.

2026-05-01

نماذج جديدة تم اختبارها: Grok 4.3, Granite 4.1 8B تمت إضافة تغطية benchmark لـ xAI Grok 4.3 و IBM Granite 4.1 8B.

2026-04-30

نماذج جديدة تم اختبارها: Owl Alpha تمت إضافة تغطية benchmark لـ Owl Alpha.

2026-04-26

تجربة الاستخدام: حسّنا موضع قائمة المقارنة على الجوال، وجعلنا تخطيط صفحات النماذج أكثر إحكاما، وقسمنا سجل التشغيل إلى أجزاء لكل نموذج حتى تحمل الصفحات بيانات تاريخية أقل.
إصلاح خطأ: أصبح سجل التشغيل يجمع الآن عمليات إعادة الاختبار شبه المكررة لنفس الحزمة، ويعرض كل التشغيلات العامة في جدول مقارنة مباشر على صفحات النماذج.

2026-04-25

ميزة جديدة: أضفنا قياس درجة الموثوقية بحيث يتم تتبع إخفاقات واجهة API الهدف وحدود المعدل منفصلة عن الإجابات الخاطئة.

2026-04-24

نماذج جديدة تم اختبارها: DeepSeek V4 Flash, DeepSeek V4 Pro تمت إضافة تغطية benchmark لـ DeepSeek V4 Flash و DeepSeek V4 Pro.
نماذج جديدة تم اختبارها: GPT-5.5 تمت إضافة تغطية benchmark لـ OpenAI GPT-5.5.
إصلاح خطأ: أصبحت روابط النماذج في سجل التغييرات تشير الآن إلى صفحات النماذج الحية المعتمدة، كما أصبحت صفحات النماذج تربط بين متغيرات الاستدلال.

2026-04-23

نماذج جديدة تم اختبارها: inclusionai/ling-2.6-1t:free تمت إضافة تغطية benchmark لـ InclusionAI Ling 2.6 1T Free.
ميزة جديدة: سجل التشغيل - تعرض صفحات النماذج الآن عمليات التشغيل العامة السابقة وجدول مقارنة جنبًا إلى جنب بين التشغيلات. (صفحة نموذج مثال)
تجربة الاستخدام: يدعم ترتيب النتائج الآن ترقيم الصفحات والفلاتر المعتمدة على URL وإجراءات المقارنة المباشرة من قائمة الترتيب.
إصلاح خطأ: أصبح البحث في الصفحة الرئيسية وعدادات الفلاتر وحالة ترقيم الصفحات متسقًا الآن عبر كامل مجموعة البيانات.
إعادة اختبار: GLM 5.1 تمت إعادة تشغيل مجموعة benchmark الكاملة وتنظيف اللقطة العامة لسجل التشغيل لهذا النموذج.
إصلاح خطأ: تم منع النماذج غير المعاد اختبارها فعليًا من الحصول على طابع زمني tested_at جديد.

تم إنشاء صفحة سجل التغييرات

بدأ هذا السجل بعد الإطلاق، لذلك بعض التحديثات الأقدم غير موجودة هنا.

2026-02-15

الإصدار الأولي