AI BENCHY
Advertise here

AI BENCHY

बदल नोंद

दिनांकानुसार गटबद्ध केलेली उत्पादन आणि बेंचमार्क अद्यतनांची साधी नोंद. आम्ही येथे नव्याने चाचणी केलेली मॉडेल्स, पुन्हा चाचण्या, बेंचमार्क बदल आणि प्रसिद्ध केलेले UX/उत्पादन काम नोंदवतो.

2026-05-22

  • नवीन चाचणी केलेली मॉडेल्स: Qwen3.7 Max Qwen 3.7 Max साठी बेंचमार्क कव्हरेज जोडले.
  • नवीन चाचण्या जोडल्या: C++ सोल्यूशनमध्ये बग शोधण्यावर केंद्रित असलेली नवीन Coding चाचणी श्रेणी जोडली.

2026-05-21

  • नवीन चाचणी केलेली मॉडेल्स: Gemini 3.5 Flash, Grok Build 0.1 Google Gemini 3.5 Flash आणि xAI Grok Build 0.1 साठी बेंचमार्क कव्हरेज जोडले.
  • बग दुरुस्ती: प्रोव्हायडर पडताळणीत reasoning आवश्यक ठरल्यानंतर xAI Grok Build 0.1 चा असमर्थित no-reasoning प्रकार काढला.

2026-05-08

  • नवीन चाचणी केलेली मॉडेल्स: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • बग दुरुस्ती: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • नवीन चाचणी केलेली मॉडेल्स: Cobuddy Baidu CoBuddy साठी benchmark coverage जोडले.

2026-05-01

  • नवीन चाचणी केलेली मॉडेल्स: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 आणि IBM Granite 4.1 8B साठी benchmark coverage जोडले.

2026-04-30

  • नवीन चाचणी केलेली मॉडेल्स: Owl Alpha Owl Alpha साठी benchmark coverage जोडले.

2026-04-26

  • UX: मोबाइलवरील तुलना ड्रॉपडाउनची जागा सुधारली, मॉडेल पेज लेआउट अधिक घट्ट केले, आणि रन इतिहास प्रति-मॉडेल शार्डमध्ये विभागला जेणेकरून पेज कमी ऐतिहासिक डेटा लोड करतील.
  • बग दुरुस्ती: रन इतिहास आता त्याच suite मधील जवळपास-डुप्लिकेट री-टेस्ट गटबद्ध करतो आणि मॉडेल पृष्ठांवर सर्व सार्वजनिक रन थेट तुलना तक्त्यात दाखवतो.

2026-04-25

  • नवीन वैशिष्ट्य: विश्वसनीयता स्कोअर टेलीमेट्री जोडली, त्यामुळे लक्ष्य API आणि रेट-लिमिट अपयशे चुकीच्या उत्तरांपासून वेगळी ट्रॅक होतात.

2026-04-24

  • नवीन चाचणी केलेली मॉडेल्स: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash आणि DeepSeek V4 Pro साठी benchmark coverage जोडले.
  • नवीन चाचणी केलेली मॉडेल्स: GPT-5.5 OpenAI GPT-5.5 साठी benchmark coverage जोडले.
  • बग दुरुस्ती: Changelog मधील model links आता canonical live model pages कडे जातात, आणि model pages आता reasoning variants मध्ये परस्पर links देतात.

2026-04-23

  • नवीन चाचणी केलेली मॉडेल्स: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free साठी benchmark coverage जोडले.
  • नवीन वैशिष्ट्य: रन इतिहास - मॉडेल पृष्ठे आता ऐतिहासिक public runs आणि side-by-side run comparison तक्ता दाखवतात. (उदाहरण मॉडेल पृष्ठ)
  • UX: लीडरबोर्ड आता URL-आधारित pagination, filters आणि ranking list मधून direct compare actions ला support करतो.
  • बग दुरुस्ती: होमपेज search, filter counts आणि pagination state आता संपूर्ण dataset मध्ये सुसंगत राहतात.
  • पुन्हा चाचणी: GLM 5.1 या मॉडेलसाठी पूर्ण benchmark suite पुन्हा चालवली आणि public run-history snapshot स्वच्छ केला.
  • बग दुरुस्ती: ज्या मॉडेल्सचा प्रत्यक्ष retest झाला नाही त्यांना नवीन tested_at timestamp मिळू नये असे केले.

चेंजलॉग पृष्ठ तयार केले

हा चेंजलॉग लाँचनंतर सुरू झाला, त्यामुळे काही जुनी अद्यतने येथे नाहीत.

2026-02-15

  • प्रारंभिक रिलीझ