AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

منهجية القياس

تشرح هذه الصفحة نهجنا في القياس على مستوى عام. نحافظ على خصوصية المطالبات الدقيقة وتفاصيل التقييم الداخلية لحماية نزاهة الاختبارات.

كيف يعمل (نظرة عامة)

  • اختبارات خاصة: لا ننشر محتوى الاختبارات الدقيق أو المطالبات أو تفاصيل التقييم الكاملة.
  • تشغيلات متكررة: يتم تشغيل كل نموذج عدة مرات لقياس الثبات وليس نتيجة محاولة محظوظة واحدة.
  • أوضاع الاستدلال: عند توفرها نقيم النماذج عبر عدة إعدادات للاستدلال.
  • التنفيذ عبر OpenRouter: تمرر طلبات القياس عبر OpenRouter.
  • اعتمادية العالم الحقيقي: تحتسب حالات انتهاء المهلة وتوقف الخدمة وأخطاء API كمحاولات فاشلة.
  • تغطية سريعة مع مجموعة متطورة: لأن مجموعتنا أصغر يمكننا اختبار النماذج الجديدة بسرعة وإضافة أو إزالة الاختبارات بشكل مستمر.
  • إشارة ذكاء عامة: الدرجة ليست مرتبطة بفئة واحدة. إنها مؤشر عام لسؤال عملي: إذا سألت الذكاء الاصطناعي شيئا ما فما احتمال أن يجيب بشكل صحيح

ننشر المنهجية بشكل عام لتحقيق الشفافية مع إبقاء التفاصيل الحساسة للاختبارات خاصة.