AI BENCHY
Your ad here

AI BENCHY

بینچ مارک طریقہ کار

یہ صفحہ ہمارے بینچ مارکنگ طریقے کی اعلی سطحی وضاحت کرتا ہے ٹیسٹ کی سالمیت برقرار رکھنے کے لیے ہم عین پرامپٹس اور اندرونی گریڈنگ تفصیلات خفیہ رکھتے ہیں

ٹیسٹس

سوال زیادہ تر کافی random انداز میں، مختلف کاموں اور domains سے چنے جاتے ہیں۔ شماریاتی طور پر دیکھا جائے تو ایک بہتر model کو اوسطاً ایک کمزور model سے بہتر perform کرنا چاہیے on a random, non-cherry-picked task۔ میرا پس منظر competitive programming میں رہا ہے، اس لیے tests اور edge cases کے بارے میں سوچنا میرے لیے قدرتی بات ہے۔

یہ کوئی standardized "IQ" value نہیں ہے۔ اس score کی کوئی unit نہیں؛ یہ صرف ایک arbitrary value ہے جو دکھاتی ہے کہ ایک model پوری test suite پر کتنا اچھا کرتا ہے (correct answers + consistency)۔ میں models کو cherry-pick نہیں کرتا، اور نہ ہی کسی model کو suit کرنے کے لیے tests بدلتا ہوں۔ جب مجھے کوئی نیا test سوجھتا ہے، میں اسے add کرتا ہوں، تمام models کو دوبارہ test کرتا ہوں، اور scores recalculate کرتا ہوں۔

سوال عموماً سادہ ideas سے آتے ہیں، جیسے: "میں سوچتا ہوں کہ اگر models سے X، Y، یا Z کرنے کو کہا جائے تو کیا وہ اچھا کریں گے؟" مثال کے طور پر: "دو برابر قدرتی اعداد a اور b کے ساتھ جواب دیں جن کا مجموعہ 2 ہو۔ بالکل اسی فارمیٹ میں جواب دیں: a,b"۔ کچھ AI غلط جواب دے سکتے ہیں، مثلاً "2,2"۔ کچھ اس شرط کو follow نہیں کرتے کہ numbers برابر ہونے چاہییں، مثلاً "0,2"۔ کچھ output format ignore کر دیتے ہیں، مثلاً "The answer is a = 1 and b = 1"۔ اور کچھ سیدھا درست جواب "1,1" دے دیتے ہیں۔

کچھ tests اس مثال سے زیادہ complex ہوتے ہیں، مگر gist یہی ہے۔ یہ کسی خاص model کو favor نہیں کرتا، اور یہ سوالات عام طور پر انسانوں کے لیے بہت آسان ہوتے ہیں۔ اگر Claude "**1**, **1**" جیسا output دے، markdown highlighting شامل کر کے، جبکہ زیادہ تر دوسرے models required format کو صحیح follow کرتے ہیں، تو اس میں میرا قصور نہیں۔

Cristian

یہ کیسے کام کرتا ہے (اعلی سطح)

  • نجی ٹیسٹ: ہم ٹیسٹ کا عین مواد پرامپٹس یا مکمل گریڈنگ تفصیلات شائع نہیں کرتے
  • بار بار چلانا: ہر ماڈل کو کئی بار چلایا جاتا ہے تاکہ نتیجہ استحکام دکھائے صرف ایک خوش قسمتی والا جواب نہیں
  • ریزننگ موڈز: جہاں ممکن ہو ماڈلز کو مختلف ریزننگ کنفیگریشنز میں جانچا جاتا ہے
  • OpenRouter کے ذریعے اجرا: بینچ مارک درخواستیں OpenRouter کے ذریعے چلتی ہیں
  • حقیقی دنیا کی قابل اعتماد کارکردگی: ٹائم آؤٹ ڈاؤن ٹائم اور API غلطیاں ناکام کوشش شمار ہوتی ہیں
  • تیز کوریج اور بدلتا ہوا سوٹ: چونکہ ہمارا سوٹ نسبتا چھوٹا ہے ہم نئے ماڈلز جلدی ٹیسٹ کرتے ہیں اور ٹیسٹ مسلسل شامل یا حذف کرتے رہتے ہیں
  • عمومی ذہانت کا اشارہ: اسکور کسی ایک زمرے تک محدود نہیں یہ ایک عملی سوال کا اشارہ ہے: اگر آپ AI سے کچھ پوچھیں تو درست جواب آنے کا امکان کتنا ہے

ہم شفافیت کے لیے طریقہ کار کو عمومی سطح پر شائع کرتے ہیں جبکہ حساس بینچ مارک تفصیلات نجی رکھتے ہیں