AI BENCHY
Advertise here

AI BENCHY

Wijzigingslog

Een eenvoudig logboek van product- en benchmarkupdates, gegroepeerd op datum. We gebruiken dit om nieuw geteste modellen, hertests, benchmarkwijzigingen en geleverde UX-/productverbeteringen vast te leggen.

2026-05-22

  • Nieuw geteste modellen: Qwen3.7 Max Benchmarkdekking toegevoegd voor Qwen 3.7 Max.
  • Nieuwe tests toegevoegd: Nieuwe Coding-testcategorie toegevoegd, gericht op het vinden van bugs in C++-oplossingen.

2026-05-21

  • Nieuw geteste modellen: Gemini 3.5 Flash, Grok Build 0.1 Benchmarkdekking toegevoegd voor Google Gemini 3.5 Flash en xAI Grok Build 0.1.
  • Bugfix: De niet-ondersteunde xAI Grok Build 0.1-variant zonder reasoning is verwijderd nadat provider-validatie reasoning vereiste.

2026-05-08

  • Nieuw geteste modellen: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Bugfix: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Nieuw geteste modellen: Cobuddy Benchmarkdekking toegevoegd voor Baidu CoBuddy.

2026-05-01

  • Nieuw geteste modellen: Grok 4.3, Granite 4.1 8B Benchmarkdekking toegevoegd voor xAI Grok 4.3 en IBM Granite 4.1 8B.

2026-04-30

  • Nieuw geteste modellen: Owl Alpha Benchmarkdekking toegevoegd voor Owl Alpha.

2026-04-26

  • UX: De mobiele positie van het vergelijkingsmenu is verbeterd, de modelpagina-layout is compacter gemaakt en de runhistorie is opgesplitst in shards per model, zodat pagina's minder historische data laden.
  • Bugfix: De rungeschiedenis groepeert nu bijna dubbele hertests van dezelfde suite en toont alle openbare runs op modelpagina's in een directe vergelijkingstabel.

2026-04-25

  • Nieuwe functie: Telemetrie voor betrouwbaarheid toegevoegd zodat doel-API- en snelheidslimietfouten los van foute antwoorden worden gevolgd.

2026-04-24

  • Nieuw geteste modellen: DeepSeek V4 Flash, DeepSeek V4 Pro Benchmarkdekking toegevoegd voor DeepSeek V4 Flash en DeepSeek V4 Pro.
  • Nieuw geteste modellen: GPT-5.5 Benchmarkdekking toegevoegd voor OpenAI GPT-5.5.
  • Bugfix: Modellinks in het changelog verwijzen nu naar canonieke live modelpagina's, en modelpagina's linken nu ook tussen redeneervarianten.

2026-04-23

  • Nieuw geteste modellen: inclusionai/ling-2.6-1t:free Benchmarkdekking toegevoegd voor InclusionAI Ling 2.6 1T Free.
  • Nieuwe functie: Rungeschiedenis - Modelpaginaโ€™s tonen nu historische publieke runs en een zij-aan-zij runvergelijkingstabel. (Voorbeeldmodelpagina)
  • UX: Het leaderboard ondersteunt nu URL-gestuurde paginering, filters en directe vergelijkingsacties vanuit de ranglijst.
  • Bugfix: Zoeken op de homepage, filteraantallen en pagineringsstatus blijven nu consistent over de volledige dataset.
  • Hertest: GLM 5.1 De volledige benchmarksuite is opnieuw uitgevoerd en de publieke rungeschiedenis-snapshot voor dit model is opgeschoond.
  • Bugfix: Modellen die niet echt opnieuw zijn getest krijgen niet langer een nieuwe tested_at-timestamp.

Changelogpagina aangemaakt

Deze changelog begon pas na de lancering, dus sommige oudere updates ontbreken hier.

2026-02-15

  • Eerste release