Orodha ya mabadiliko

Kumbukumbu rahisi ya masasisho ya bidhaa na benchmark, yaliyopangwa kwa tarehe. Tunaitumia kurekodi modeli mpya zilizojaribiwa, majaribio ya kurudia, mabadiliko ya benchmark, na kazi ya UX/bidhaa iliyotolewa.

2026-06-17

Modeli mpya zilizojaribiwa: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Kipengele kipya: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Marekebisho ya hitilafu: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Modeli mpya zilizojaribiwa: Qwen3.7 Max Imeongezwa benchmark coverage kwa Qwen 3.7 Max.
Majaribio mapya yameongezwa: Imeongezwa kategoria mpya ya majaribio ya Coding inayolenga kutafuta hitilafu katika suluhisho za C++.

2026-05-21

Modeli mpya zilizojaribiwa: Gemini 3.5 Flash, Grok Build 0.1 Imeongeza ufunikaji wa benchmark kwa Google Gemini 3.5 Flash na xAI Grok Build 0.1.
Marekebisho ya hitilafu: Imeondoa toleo la xAI Grok Build 0.1 lisilo na reasoning ambalo halitumiki baada ya uthibitishaji wa mtoa huduma kuhitaji reasoning.

2026-05-08

Modeli mpya zilizojaribiwa: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Marekebisho ya hitilafu: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Modeli mpya zilizojaribiwa: Cobuddy Imeongezwa benchmark coverage kwa Baidu CoBuddy.

2026-05-01

Modeli mpya zilizojaribiwa: Grok 4.3, Granite 4.1 8B Imeongezwa benchmark coverage kwa xAI Grok 4.3 na IBM Granite 4.1 8B.

2026-04-30

Modeli mpya zilizojaribiwa: Owl Alpha Imeongezwa benchmark coverage kwa Owl Alpha.

2026-04-26

UX: Tumeboresha nafasi ya menyu ya kulinganisha kwenye simu, tukabana mpangilio wa kurasa za modeli, na kugawa historia ya majaribio katika vipande vya kila modeli ili kurasa zipakie data chache za kihistoria.
Marekebisho ya hitilafu: Historia ya uendeshaji sasa huunganisha marudio ya jaribio yanayokaribia kurudiwa ya suite ileile na huonyesha uendeshaji wote wa umma katika jedwali la kulinganisha kwenye kurasa za modeli.

2026-04-25

Kipengele kipya: Tumeongeza telemetry ya uaminifu ili hitilafu za API lengwa na kikomo cha kasi zifuatiliwe tofauti na majibu yasiyo sahihi.

2026-04-24

Modeli mpya zilizojaribiwa: DeepSeek V4 Flash, DeepSeek V4 Pro Imeongezwa benchmark coverage kwa DeepSeek V4 Flash na DeepSeek V4 Pro.
Modeli mpya zilizojaribiwa: GPT-5.5 Imeongezwa benchmark coverage kwa OpenAI GPT-5.5.
Marekebisho ya hitilafu: Viungo vya modeli kwenye changelog sasa vinaelekeza kwenye kurasa za modeli hai za msingi, na kurasa za modeli sasa pia zinaunganisha kati ya reasoning variants.

2026-04-23

Modeli mpya zilizojaribiwa: inclusionai/ling-2.6-1t:free Imeongezwa benchmark coverage kwa InclusionAI Ling 2.6 1T Free.
Kipengele kipya: Historia ya run - Kurasa za modeli sasa zinaonyesha run za umma za zamani pamoja na jedwali la kulinganisha run kwa upande mbili. (Ukurasa wa mfano wa modeli)
UX: Leaderboard sasa inaunga mkono pagination na filters zinazotegemea URL pamoja na hatua za compare moja kwa moja kutoka kwenye orodha ya viwango.
Marekebisho ya hitilafu: Utafutaji wa homepage, hesabu za filters, na hali ya pagination sasa vinaendelea kuwa thabiti katika dataset nzima.
Jaribio la kurudia: GLM 5.1 Benchmark suite kamili iliendeshwa tena na snapshot ya umma ya historia ya run ya modeli hii ikasafishwa.
Marekebisho ya hitilafu: Modeli ambazo hazikufanyiwa retest halisi sasa hazipewi tena timestamp mpya ya tested_at.

Ukurasa wa changelog umeundwa

Changelog hii ilianza baada ya uzinduzi, kwa hivyo masasisho ya zamani hayapo hapa.

2026-02-15

Toleo la awali