AI BENCHY
بینچ مارک طریقہ کار
یہ صفحہ ہمارے بینچ مارکنگ طریقے کی اعلی سطحی وضاحت کرتا ہے ٹیسٹ کی سالمیت برقرار رکھنے کے لیے ہم عین پرامپٹس اور اندرونی گریڈنگ تفصیلات خفیہ رکھتے ہیں
یہ کیسے کام کرتا ہے (اعلی سطح)
- نجی ٹیسٹ: ہم ٹیسٹ کا عین مواد پرامپٹس یا مکمل گریڈنگ تفصیلات شائع نہیں کرتے
- بار بار چلانا: ہر ماڈل کو کئی بار چلایا جاتا ہے تاکہ نتیجہ استحکام دکھائے صرف ایک خوش قسمتی والا جواب نہیں
- ریزننگ موڈز: جہاں ممکن ہو ماڈلز کو مختلف ریزننگ کنفیگریشنز میں جانچا جاتا ہے
- OpenRouter کے ذریعے اجرا: بینچ مارک درخواستیں OpenRouter کے ذریعے چلتی ہیں
- حقیقی دنیا کی قابل اعتماد کارکردگی: ٹائم آؤٹ ڈاؤن ٹائم اور API غلطیاں ناکام کوشش شمار ہوتی ہیں
- تیز کوریج اور بدلتا ہوا سوٹ: چونکہ ہمارا سوٹ نسبتا چھوٹا ہے ہم نئے ماڈلز جلدی ٹیسٹ کرتے ہیں اور ٹیسٹ مسلسل شامل یا حذف کرتے رہتے ہیں
- عمومی ذہانت کا اشارہ: اسکور کسی ایک زمرے تک محدود نہیں یہ ایک عملی سوال کا اشارہ ہے: اگر آپ AI سے کچھ پوچھیں تو درست جواب آنے کا امکان کتنا ہے
ہم شفافیت کے لیے طریقہ کار کو عمومی سطح پر شائع کرتے ہیں جبکہ حساس بینچ مارک تفصیلات نجی رکھتے ہیں