परिवर्तन लॉग

उत्पाद और बेंचमार्क अपडेट का एक सरल लॉग, तारीख के अनुसार समूहित। हम इसका उपयोग नए परीक्षण किए गए मॉडल, री-टेस्ट, बेंचमार्क बदलाव और शिप किए गए UX/उत्पाद कार्य को दर्ज करने के लिए करते हैं।

2026-06-17

नए परीक्षण किए गए मॉडल: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
नई सुविधा: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
बग फिक्स: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

नए परीक्षण किए गए मॉडल: Qwen3.7 Max Qwen 3.7 Max के लिए बेंचमार्क कवरेज जोड़ा गया।
नए टेस्ट जोड़े गए: C++ समाधानों में बग खोजने पर केंद्रित एक नई Coding परीक्षण श्रेणी जोड़ी गई।

2026-05-21

नए परीक्षण किए गए मॉडल: Gemini 3.5 Flash, Grok Build 0.1 Google Gemini 3.5 Flash और xAI Grok Build 0.1 के लिए बेंचमार्क कवरेज जोड़ा गया।
बग फिक्स: प्रदाता सत्यापन द्वारा reasoning आवश्यक होने के बाद xAI Grok Build 0.1 का असमर्थित no-reasoning वैरिएंट हटा दिया गया।

2026-05-08

नए परीक्षण किए गए मॉडल: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
बग फिक्स: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

नए परीक्षण किए गए मॉडल: Cobuddy Baidu CoBuddy के लिए benchmark coverage जोड़ी गई।

2026-05-01

नए परीक्षण किए गए मॉडल: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 और IBM Granite 4.1 8B के लिए benchmark coverage जोड़ी गई।

2026-04-30

नए परीक्षण किए गए मॉडल: Owl Alpha Owl Alpha के लिए benchmark coverage जोड़ी गई।

2026-04-26

UX: मोबाइल तुलना ड्रॉपडाउन की स्थिति सुधारी गई, मॉडल पेज लेआउट को अधिक सघन किया गया, और रन इतिहास को प्रति-मॉडल शार्ड में बांटा गया ताकि पेज कम ऐतिहासिक डेटा लोड करें।
बग फिक्स: रन इतिहास अब समान suite के लगभग-डुप्लिकेट री-टेस्ट को समूहित करता है और मॉडल पेजों पर सभी सार्वजनिक रन को सीधे तुलना तालिका में दिखाता है।

2026-04-25

नई सुविधा: विश्वसनीयता स्कोर टेलीमेट्री जोड़ी गई ताकि लक्ष्य API और रेट-लिमिट विफलताओं को गलत उत्तरों से अलग ट्रैक किया जा सके।

2026-04-24

नए परीक्षण किए गए मॉडल: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash और DeepSeek V4 Pro के लिए benchmark coverage जोड़ी गई।
नए परीक्षण किए गए मॉडल: GPT-5.5 OpenAI GPT-5.5 के लिए benchmark coverage जोड़ी गई।
बग फिक्स: Changelog ke model links ab canonical live model pages par resolve hote hain, aur model pages ab reasoning variants ke beech bhi link karti hain.

2026-04-23

नए परीक्षण किए गए मॉडल: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free के लिए benchmark coverage जोड़ी गई।
नई सुविधा: रन इतिहास - मॉडल पेज अब ऐतिहासिक सार्वजनिक रन और एक side-by-side run comparison तालिका दिखाते हैं। (उदाहरण मॉडल पेज)
UX: लीडरबोर्ड अब URL-आधारित pagination, filters और ranking list से direct compare actions को support करता है।
बग फिक्स: होमपेज खोज, filter counts और pagination state अब पूरे dataset में एकसमान रहती है।
री-टेस्ट: GLM 5.1 इस मॉडल के लिए पूरी benchmark suite दोबारा चलाई गई और public run-history snapshot साफ़ किया गया।
बग फिक्स: जिन मॉडलों का वास्तव में retest नहीं हुआ, उन्हें नया tested_at timestamp मिलने से रोका गया।

चेंजलॉग पेज बनाया गया

यह चेंजलॉग लॉन्च के बाद शुरू हुआ, इसलिए कुछ पुराने अपडेट यहाँ नहीं हैं।

2026-02-15

प्रारंभिक रिलीज़