AI BENCHY

منهجية القياس

تشرح هذه الصفحة نهجنا في القياس على مستوى عام. نحافظ على خصوصية المطالبات الدقيقة وتفاصيل التقييم الداخلية لحماية نزاهة الاختبارات.

كيف يعمل (نظرة عامة)

اختبارات خاصة: لا ننشر محتوى الاختبارات الدقيق أو المطالبات أو تفاصيل التقييم الكاملة.
تشغيلات متكررة: يتم تشغيل كل نموذج عدة مرات لقياس الثبات وليس نتيجة محاولة محظوظة واحدة.
أوضاع الاستدلال: عند توفرها نقيم النماذج عبر عدة إعدادات للاستدلال.
التنفيذ عبر OpenRouter: تمرر طلبات القياس عبر OpenRouter.
اعتمادية العالم الحقيقي: تحتسب حالات انتهاء المهلة وتوقف الخدمة وأخطاء API كمحاولات فاشلة.
تغطية سريعة مع مجموعة متطورة: لأن مجموعتنا أصغر يمكننا اختبار النماذج الجديدة بسرعة وإضافة أو إزالة الاختبارات بشكل مستمر.
إشارة ذكاء عامة: الدرجة ليست مرتبطة بفئة واحدة. إنها مؤشر عام لسؤال عملي: إذا سألت الذكاء الاصطناعي شيئا ما فما احتمال أن يجيب بشكل صحيح

ننشر المنهجية بشكل عام لتحقيق الشفافية مع إبقاء التفاصيل الحساسة للاختبارات خاصة.