AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Wijzigingslog

Een eenvoudig logboek van product- en benchmarkupdates, gegroepeerd op datum. We gebruiken dit om nieuw geteste modellen, hertests, benchmarkwijzigingen en geleverde UX-/productverbeteringen vast te leggen.

2026-05-06

  • Nieuw geteste modellen: Cobuddy Benchmarkdekking toegevoegd voor Baidu CoBuddy.

2026-05-01

  • Nieuw geteste modellen: Grok 4.3, Granite 4.1 8B Benchmarkdekking toegevoegd voor xAI Grok 4.3 en IBM Granite 4.1 8B.

2026-04-30

  • Nieuw geteste modellen: Owl Alpha Benchmarkdekking toegevoegd voor Owl Alpha.

2026-04-26

  • UX: De mobiele positie van het vergelijkingsmenu is verbeterd, de modelpagina-layout is compacter gemaakt en de runhistorie is opgesplitst in shards per model, zodat pagina's minder historische data laden.
  • Bugfix: De rungeschiedenis groepeert nu bijna dubbele hertests van dezelfde suite en toont alle openbare runs op modelpagina's in een directe vergelijkingstabel.

2026-04-25

  • Nieuwe functie: Telemetrie voor betrouwbaarheid toegevoegd zodat doel-API- en snelheidslimietfouten los van foute antwoorden worden gevolgd.

2026-04-24

  • Nieuw geteste modellen: DeepSeek V4 Flash, DeepSeek V4 Pro Benchmarkdekking toegevoegd voor DeepSeek V4 Flash en DeepSeek V4 Pro.
  • Nieuw geteste modellen: GPT-5.5 Benchmarkdekking toegevoegd voor OpenAI GPT-5.5.
  • Bugfix: Modellinks in het changelog verwijzen nu naar canonieke live modelpagina's, en modelpagina's linken nu ook tussen redeneervarianten.

2026-04-23

  • Nieuw geteste modellen: inclusionai/ling-2.6-1t:free Benchmarkdekking toegevoegd voor InclusionAI Ling 2.6 1T Free.
  • Nieuwe functie: Rungeschiedenis - Modelpaginaโ€™s tonen nu historische publieke runs en een zij-aan-zij runvergelijkingstabel. (Voorbeeldmodelpagina)
  • UX: Het leaderboard ondersteunt nu URL-gestuurde paginering, filters en directe vergelijkingsacties vanuit de ranglijst.
  • Bugfix: Zoeken op de homepage, filteraantallen en pagineringsstatus blijven nu consistent over de volledige dataset.
  • Hertest: GLM 5.1 De volledige benchmarksuite is opnieuw uitgevoerd en de publieke rungeschiedenis-snapshot voor dit model is opgeschoond.
  • Bugfix: Modellen die niet echt opnieuw zijn getest krijgen niet langer een nieuwe tested_at-timestamp.

Changelogpagina aangemaakt

Deze changelog begon pas na de lancering, dus sommige oudere updates ontbreken hier.

2026-02-15

  • Eerste release