AI BENCHY
Advertise here

AI BENCHY

परिवर्तन लॉग

उत्पाद और बेंचमार्क अपडेट का एक सरल लॉग, तारीख के अनुसार समूहित। हम इसका उपयोग नए परीक्षण किए गए मॉडल, री-टेस्ट, बेंचमार्क बदलाव और शिप किए गए UX/उत्पाद कार्य को दर्ज करने के लिए करते हैं।

2026-05-08

  • नए परीक्षण किए गए मॉडल: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • बग फिक्स: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • नए परीक्षण किए गए मॉडल: Cobuddy Baidu CoBuddy के लिए benchmark coverage जोड़ी गई।

2026-05-01

  • नए परीक्षण किए गए मॉडल: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 और IBM Granite 4.1 8B के लिए benchmark coverage जोड़ी गई।

2026-04-30

  • नए परीक्षण किए गए मॉडल: Owl Alpha Owl Alpha के लिए benchmark coverage जोड़ी गई।

2026-04-26

  • UX: मोबाइल तुलना ड्रॉपडाउन की स्थिति सुधारी गई, मॉडल पेज लेआउट को अधिक सघन किया गया, और रन इतिहास को प्रति-मॉडल शार्ड में बांटा गया ताकि पेज कम ऐतिहासिक डेटा लोड करें।
  • बग फिक्स: रन इतिहास अब समान suite के लगभग-डुप्लिकेट री-टेस्ट को समूहित करता है और मॉडल पेजों पर सभी सार्वजनिक रन को सीधे तुलना तालिका में दिखाता है।

2026-04-25

  • नई सुविधा: विश्वसनीयता स्कोर टेलीमेट्री जोड़ी गई ताकि लक्ष्य API और रेट-लिमिट विफलताओं को गलत उत्तरों से अलग ट्रैक किया जा सके।

2026-04-24

  • नए परीक्षण किए गए मॉडल: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash और DeepSeek V4 Pro के लिए benchmark coverage जोड़ी गई।
  • नए परीक्षण किए गए मॉडल: GPT-5.5 OpenAI GPT-5.5 के लिए benchmark coverage जोड़ी गई।
  • बग फिक्स: Changelog ke model links ab canonical live model pages par resolve hote hain, aur model pages ab reasoning variants ke beech bhi link karti hain.

2026-04-23

  • नए परीक्षण किए गए मॉडल: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free के लिए benchmark coverage जोड़ी गई।
  • नई सुविधा: रन इतिहास - मॉडल पेज अब ऐतिहासिक सार्वजनिक रन और एक side-by-side run comparison तालिका दिखाते हैं। (उदाहरण मॉडल पेज)
  • UX: लीडरबोर्ड अब URL-आधारित pagination, filters और ranking list से direct compare actions को support करता है।
  • बग फिक्स: होमपेज खोज, filter counts और pagination state अब पूरे dataset में एकसमान रहती है।
  • री-टेस्ट: GLM 5.1 इस मॉडल के लिए पूरी benchmark suite दोबारा चलाई गई और public run-history snapshot साफ़ किया गया।
  • बग फिक्स: जिन मॉडलों का वास्तव में retest नहीं हुआ, उन्हें नया tested_at timestamp मिलने से रोका गया।

चेंजलॉग पेज बनाया गया

यह चेंजलॉग लॉन्च के बाद शुरू हुआ, इसलिए कुछ पुराने अपडेट यहाँ नहीं हैं।

2026-02-15

  • प्रारंभिक रिलीज़