AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

बदल नोंद

दिनांकानुसार गटबद्ध केलेली उत्पादन आणि बेंचमार्क अद्यतनांची साधी नोंद. आम्ही येथे नव्याने चाचणी केलेली मॉडेल्स, पुन्हा चाचण्या, बेंचमार्क बदल आणि प्रसिद्ध केलेले UX/उत्पादन काम नोंदवतो.

2026-05-06

  • नवीन चाचणी केलेली मॉडेल्स: Cobuddy Baidu CoBuddy साठी benchmark coverage जोडले.

2026-05-01

  • नवीन चाचणी केलेली मॉडेल्स: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 आणि IBM Granite 4.1 8B साठी benchmark coverage जोडले.

2026-04-30

  • नवीन चाचणी केलेली मॉडेल्स: Owl Alpha Owl Alpha साठी benchmark coverage जोडले.

2026-04-26

  • UX: मोबाइलवरील तुलना ड्रॉपडाउनची जागा सुधारली, मॉडेल पेज लेआउट अधिक घट्ट केले, आणि रन इतिहास प्रति-मॉडेल शार्डमध्ये विभागला जेणेकरून पेज कमी ऐतिहासिक डेटा लोड करतील.
  • बग दुरुस्ती: रन इतिहास आता त्याच suite मधील जवळपास-डुप्लिकेट री-टेस्ट गटबद्ध करतो आणि मॉडेल पृष्ठांवर सर्व सार्वजनिक रन थेट तुलना तक्त्यात दाखवतो.

2026-04-25

  • नवीन वैशिष्ट्य: विश्वसनीयता स्कोअर टेलीमेट्री जोडली, त्यामुळे लक्ष्य API आणि रेट-लिमिट अपयशे चुकीच्या उत्तरांपासून वेगळी ट्रॅक होतात.

2026-04-24

  • नवीन चाचणी केलेली मॉडेल्स: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash आणि DeepSeek V4 Pro साठी benchmark coverage जोडले.
  • नवीन चाचणी केलेली मॉडेल्स: GPT-5.5 OpenAI GPT-5.5 साठी benchmark coverage जोडले.
  • बग दुरुस्ती: Changelog मधील model links आता canonical live model pages कडे जातात, आणि model pages आता reasoning variants मध्ये परस्पर links देतात.

2026-04-23

  • नवीन चाचणी केलेली मॉडेल्स: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free साठी benchmark coverage जोडले.
  • नवीन वैशिष्ट्य: रन इतिहास - मॉडेल पृष्ठे आता ऐतिहासिक public runs आणि side-by-side run comparison तक्ता दाखवतात. (उदाहरण मॉडेल पृष्ठ)
  • UX: लीडरबोर्ड आता URL-आधारित pagination, filters आणि ranking list मधून direct compare actions ला support करतो.
  • बग दुरुस्ती: होमपेज search, filter counts आणि pagination state आता संपूर्ण dataset मध्ये सुसंगत राहतात.
  • पुन्हा चाचणी: GLM 5.1 या मॉडेलसाठी पूर्ण benchmark suite पुन्हा चालवली आणि public run-history snapshot स्वच्छ केला.
  • बग दुरुस्ती: ज्या मॉडेल्सचा प्रत्यक्ष retest झाला नाही त्यांना नवीन tested_at timestamp मिळू नये असे केले.

चेंजलॉग पृष्ठ तयार केले

हा चेंजलॉग लाँचनंतर सुरू झाला, त्यामुळे काही जुनी अद्यतने येथे नाहीत.

2026-02-15

  • प्रारंभिक रिलीझ