AI BENCHY
منهجية القياس
تشرح هذه الصفحة نهجنا في القياس على مستوى عام. نحافظ على خصوصية المطالبات الدقيقة وتفاصيل التقييم الداخلية لحماية نزاهة الاختبارات.
كيف يعمل (نظرة عامة)
- اختبارات خاصة: لا ننشر محتوى الاختبارات الدقيق أو المطالبات أو تفاصيل التقييم الكاملة.
- تشغيلات متكررة: يتم تشغيل كل نموذج عدة مرات لقياس الثبات وليس نتيجة محاولة محظوظة واحدة.
- أوضاع الاستدلال: عند توفرها نقيم النماذج عبر عدة إعدادات للاستدلال.
- التنفيذ عبر OpenRouter: تمرر طلبات القياس عبر OpenRouter.
- اعتمادية العالم الحقيقي: تحتسب حالات انتهاء المهلة وتوقف الخدمة وأخطاء API كمحاولات فاشلة.
- تغطية سريعة مع مجموعة متطورة: لأن مجموعتنا أصغر يمكننا اختبار النماذج الجديدة بسرعة وإضافة أو إزالة الاختبارات بشكل مستمر.
- إشارة ذكاء عامة: الدرجة ليست مرتبطة بفئة واحدة. إنها مؤشر عام لسؤال عملي: إذا سألت الذكاء الاصطناعي شيئا ما فما احتمال أن يجيب بشكل صحيح
ننشر المنهجية بشكل عام لتحقيق الشفافية مع إبقاء التفاصيل الحساسة للاختبارات خاصة.