बदल नोंद

दिनांकानुसार गटबद्ध केलेली उत्पादन आणि बेंचमार्क अद्यतनांची साधी नोंद. आम्ही येथे नव्याने चाचणी केलेली मॉडेल्स, पुन्हा चाचण्या, बेंचमार्क बदल आणि प्रसिद्ध केलेले UX/उत्पादन काम नोंदवतो.

2026-06-17

नवीन चाचणी केलेली मॉडेल्स: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
नवीन वैशिष्ट्य: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
बग दुरुस्ती: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

नवीन चाचणी केलेली मॉडेल्स: Qwen3.7 Max Qwen 3.7 Max साठी बेंचमार्क कव्हरेज जोडले.
नवीन चाचण्या जोडल्या: C++ सोल्यूशनमध्ये बग शोधण्यावर केंद्रित असलेली नवीन Coding चाचणी श्रेणी जोडली.

2026-05-21

नवीन चाचणी केलेली मॉडेल्स: Gemini 3.5 Flash, Grok Build 0.1 Google Gemini 3.5 Flash आणि xAI Grok Build 0.1 साठी बेंचमार्क कव्हरेज जोडले.
बग दुरुस्ती: प्रोव्हायडर पडताळणीत reasoning आवश्यक ठरल्यानंतर xAI Grok Build 0.1 चा असमर्थित no-reasoning प्रकार काढला.

2026-05-08

नवीन चाचणी केलेली मॉडेल्स: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
बग दुरुस्ती: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

नवीन चाचणी केलेली मॉडेल्स: Cobuddy Baidu CoBuddy साठी benchmark coverage जोडले.

2026-05-01

नवीन चाचणी केलेली मॉडेल्स: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 आणि IBM Granite 4.1 8B साठी benchmark coverage जोडले.

2026-04-30

नवीन चाचणी केलेली मॉडेल्स: Owl Alpha Owl Alpha साठी benchmark coverage जोडले.

2026-04-26

UX: मोबाइलवरील तुलना ड्रॉपडाउनची जागा सुधारली, मॉडेल पेज लेआउट अधिक घट्ट केले, आणि रन इतिहास प्रति-मॉडेल शार्डमध्ये विभागला जेणेकरून पेज कमी ऐतिहासिक डेटा लोड करतील.
बग दुरुस्ती: रन इतिहास आता त्याच suite मधील जवळपास-डुप्लिकेट री-टेस्ट गटबद्ध करतो आणि मॉडेल पृष्ठांवर सर्व सार्वजनिक रन थेट तुलना तक्त्यात दाखवतो.

2026-04-25

नवीन वैशिष्ट्य: विश्वसनीयता स्कोअर टेलीमेट्री जोडली, त्यामुळे लक्ष्य API आणि रेट-लिमिट अपयशे चुकीच्या उत्तरांपासून वेगळी ट्रॅक होतात.

2026-04-24

नवीन चाचणी केलेली मॉडेल्स: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash आणि DeepSeek V4 Pro साठी benchmark coverage जोडले.
नवीन चाचणी केलेली मॉडेल्स: GPT-5.5 OpenAI GPT-5.5 साठी benchmark coverage जोडले.
बग दुरुस्ती: Changelog मधील model links आता canonical live model pages कडे जातात, आणि model pages आता reasoning variants मध्ये परस्पर links देतात.

2026-04-23

नवीन चाचणी केलेली मॉडेल्स: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free साठी benchmark coverage जोडले.
नवीन वैशिष्ट्य: रन इतिहास - मॉडेल पृष्ठे आता ऐतिहासिक public runs आणि side-by-side run comparison तक्ता दाखवतात. (उदाहरण मॉडेल पृष्ठ)
UX: लीडरबोर्ड आता URL-आधारित pagination, filters आणि ranking list मधून direct compare actions ला support करतो.
बग दुरुस्ती: होमपेज search, filter counts आणि pagination state आता संपूर्ण dataset मध्ये सुसंगत राहतात.
पुन्हा चाचणी: GLM 5.1 या मॉडेलसाठी पूर्ण benchmark suite पुन्हा चालवली आणि public run-history snapshot स्वच्छ केला.
बग दुरुस्ती: ज्या मॉडेल्सचा प्रत्यक्ष retest झाला नाही त्यांना नवीन tested_at timestamp मिळू नये असे केले.

चेंजलॉग पृष्ठ तयार केले

हा चेंजलॉग लाँचनंतर सुरू झाला, त्यामुळे काही जुनी अद्यतने येथे नाहीत.

2026-02-15

प्रारंभिक रिलीझ