AI BENCHY
Advertise here

AI BENCHY

Orodha ya mabadiliko

Kumbukumbu rahisi ya masasisho ya bidhaa na benchmark, yaliyopangwa kwa tarehe. Tunaitumia kurekodi modeli mpya zilizojaribiwa, majaribio ya kurudia, mabadiliko ya benchmark, na kazi ya UX/bidhaa iliyotolewa.

2026-05-08

  • Modeli mpya zilizojaribiwa: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Marekebisho ya hitilafu: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Modeli mpya zilizojaribiwa: Cobuddy Imeongezwa benchmark coverage kwa Baidu CoBuddy.

2026-05-01

  • Modeli mpya zilizojaribiwa: Grok 4.3, Granite 4.1 8B Imeongezwa benchmark coverage kwa xAI Grok 4.3 na IBM Granite 4.1 8B.

2026-04-30

  • Modeli mpya zilizojaribiwa: Owl Alpha Imeongezwa benchmark coverage kwa Owl Alpha.

2026-04-26

  • UX: Tumeboresha nafasi ya menyu ya kulinganisha kwenye simu, tukabana mpangilio wa kurasa za modeli, na kugawa historia ya majaribio katika vipande vya kila modeli ili kurasa zipakie data chache za kihistoria.
  • Marekebisho ya hitilafu: Historia ya uendeshaji sasa huunganisha marudio ya jaribio yanayokaribia kurudiwa ya suite ileile na huonyesha uendeshaji wote wa umma katika jedwali la kulinganisha kwenye kurasa za modeli.

2026-04-25

  • Kipengele kipya: Tumeongeza telemetry ya uaminifu ili hitilafu za API lengwa na kikomo cha kasi zifuatiliwe tofauti na majibu yasiyo sahihi.

2026-04-24

  • Modeli mpya zilizojaribiwa: DeepSeek V4 Flash, DeepSeek V4 Pro Imeongezwa benchmark coverage kwa DeepSeek V4 Flash na DeepSeek V4 Pro.
  • Modeli mpya zilizojaribiwa: GPT-5.5 Imeongezwa benchmark coverage kwa OpenAI GPT-5.5.
  • Marekebisho ya hitilafu: Viungo vya modeli kwenye changelog sasa vinaelekeza kwenye kurasa za modeli hai za msingi, na kurasa za modeli sasa pia zinaunganisha kati ya reasoning variants.

2026-04-23

  • Modeli mpya zilizojaribiwa: inclusionai/ling-2.6-1t:free Imeongezwa benchmark coverage kwa InclusionAI Ling 2.6 1T Free.
  • Kipengele kipya: Historia ya run - Kurasa za modeli sasa zinaonyesha run za umma za zamani pamoja na jedwali la kulinganisha run kwa upande mbili. (Ukurasa wa mfano wa modeli)
  • UX: Leaderboard sasa inaunga mkono pagination na filters zinazotegemea URL pamoja na hatua za compare moja kwa moja kutoka kwenye orodha ya viwango.
  • Marekebisho ya hitilafu: Utafutaji wa homepage, hesabu za filters, na hali ya pagination sasa vinaendelea kuwa thabiti katika dataset nzima.
  • Jaribio la kurudia: GLM 5.1 Benchmark suite kamili iliendeshwa tena na snapshot ya umma ya historia ya run ya modeli hii ikasafishwa.
  • Marekebisho ya hitilafu: Modeli ambazo hazikufanyiwa retest halisi sasa hazipewi tena timestamp mpya ya tested_at.

Ukurasa wa changelog umeundwa

Changelog hii ilianza baada ya uzinduzi, kwa hivyo masasisho ya zamani hayapo hapa.

2026-02-15

  • Toleo la awali