AI BENCHY
منهجية القياس
تشرح هذه الصفحة نهجنا في القياس على مستوى عام. نحافظ على خصوصية المطالبات الدقيقة وتفاصيل التقييم الداخلية لحماية نزاهة الاختبارات.
الاختبارات
تُختار الأسئلة في الغالب بشكل عشوائي إلى حد ما، عبر مهام ومجالات مختلفة. ومن الناحية الإحصائية يفترض أن يحقق النموذج الأفضل أداءً أفضل في المتوسط من النموذج الأضعف على مهمة عشوائية غير منتقاة بعناية. لدي خلفية في البرمجة التنافسية، لذلك فإن التفكير في الاختبارات والحالات الطرفية يأتي بشكل طبيعي بالنسبة لي.
هذه ليست أي قيمة "IQ" معيارية. الدرجة ليس لها وحدة؛ إنها مجرد قيمة اعتباطية تُظهر مدى جودة أداء النموذج على مجموعة الاختبارات كاملةً (الإجابات الصحيحة + الاتساق). أنا لا أنتقي النماذج ولا أعدّل الاختبارات لتناسب أي نموذج. عندما تخطر لي فكرة اختبار جديد، أضيفه، وأعيد اختبار جميع النماذج، وأعيد حساب الدرجات.
عادةً ما تأتي الأسئلة من أفكار بسيطة مثل: "أتساءل إن كانت النماذج تؤدي جيداً عندما يُطلب منها القيام بـ X أو Y أو Z". على سبيل المثال: "أجب بالعددين الطبيعيين المتساويين a و b اللذين يكون مجموعهما 2. أجب بهذا التنسيق الدقيق: a,b". بعض أنظمة الذكاء الاصطناعي قد تعطي الإجابة الخاطئة، مثل "2,2". وبعضها قد لا يلتزم بشرط أن يكون العددان متساويين، مثل "0,2". وبعضها قد يتجاهل تنسيق الإخراج، مثل "The answer is a = 1 and b = 1". وبعضها قد يجيب ببساطة بشكل صحيح بـ "1,1".
بعض الاختبارات أكثر تعقيداً من هذا المثال، لكن الفكرة واضحة. هذا لا يفضّل أي نموذج بعينه، وهذه الأسئلة في العموم سهلة جداً على البشر. وليس ذنبي إذا أخرج Claude شيئاً مثل "**1**, **1**" مع إضافة تنسيق markdown، بينما تلتزم معظم النماذج الأخرى بالتنسيق المطلوب بشكل صحيح.
كيف يعمل (نظرة عامة)
- اختبارات خاصة: لا ننشر محتوى الاختبارات الدقيق أو المطالبات أو تفاصيل التقييم الكاملة.
- تشغيلات متكررة: يتم تشغيل كل نموذج عدة مرات لقياس الثبات وليس نتيجة محاولة محظوظة واحدة.
- أوضاع الاستدلال: عند توفرها نقيم النماذج عبر عدة إعدادات للاستدلال.
- التنفيذ عبر OpenRouter: تمرر طلبات القياس عبر OpenRouter.
- اعتمادية العالم الحقيقي: تحتسب حالات انتهاء المهلة وتوقف الخدمة وأخطاء API كمحاولات فاشلة.
- تغطية سريعة مع مجموعة متطورة: لأن مجموعتنا أصغر يمكننا اختبار النماذج الجديدة بسرعة وإضافة أو إزالة الاختبارات بشكل مستمر.
- إشارة ذكاء عامة: الدرجة ليست مرتبطة بفئة واحدة. إنها مؤشر عام لسؤال عملي: إذا سألت الذكاء الاصطناعي شيئا ما فما احتمال أن يجيب بشكل صحيح
ننشر المنهجية بشكل عام لتحقيق الشفافية مع إبقاء التفاصيل الحساسة للاختبارات خاصة.