Wijzigingslog

Een eenvoudig logboek van product- en benchmarkupdates, gegroepeerd op datum. We gebruiken dit om nieuw geteste modellen, hertests, benchmarkwijzigingen en geleverde UX-/productverbeteringen vast te leggen.

2026-06-17

Nieuw geteste modellen: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Nieuwe functie: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Bugfix: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Nieuw geteste modellen: Qwen3.7 Max Benchmarkdekking toegevoegd voor Qwen 3.7 Max.
Nieuwe tests toegevoegd: Nieuwe Coding-testcategorie toegevoegd, gericht op het vinden van bugs in C++-oplossingen.

2026-05-21

Nieuw geteste modellen: Gemini 3.5 Flash, Grok Build 0.1 Benchmarkdekking toegevoegd voor Google Gemini 3.5 Flash en xAI Grok Build 0.1.
Bugfix: De niet-ondersteunde xAI Grok Build 0.1-variant zonder reasoning is verwijderd nadat provider-validatie reasoning vereiste.

2026-05-08

Nieuw geteste modellen: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Bugfix: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Nieuw geteste modellen: Cobuddy Benchmarkdekking toegevoegd voor Baidu CoBuddy.

2026-05-01

Nieuw geteste modellen: Grok 4.3, Granite 4.1 8B Benchmarkdekking toegevoegd voor xAI Grok 4.3 en IBM Granite 4.1 8B.

2026-04-30

Nieuw geteste modellen: Owl Alpha Benchmarkdekking toegevoegd voor Owl Alpha.

2026-04-26

UX: De mobiele positie van het vergelijkingsmenu is verbeterd, de modelpagina-layout is compacter gemaakt en de runhistorie is opgesplitst in shards per model, zodat pagina's minder historische data laden.
Bugfix: De rungeschiedenis groepeert nu bijna dubbele hertests van dezelfde suite en toont alle openbare runs op modelpagina's in een directe vergelijkingstabel.

2026-04-25

Nieuwe functie: Telemetrie voor betrouwbaarheid toegevoegd zodat doel-API- en snelheidslimietfouten los van foute antwoorden worden gevolgd.

2026-04-24

Nieuw geteste modellen: DeepSeek V4 Flash, DeepSeek V4 Pro Benchmarkdekking toegevoegd voor DeepSeek V4 Flash en DeepSeek V4 Pro.
Nieuw geteste modellen: GPT-5.5 Benchmarkdekking toegevoegd voor OpenAI GPT-5.5.
Bugfix: Modellinks in het changelog verwijzen nu naar canonieke live modelpagina's, en modelpagina's linken nu ook tussen redeneervarianten.

2026-04-23

Nieuw geteste modellen: inclusionai/ling-2.6-1t:free Benchmarkdekking toegevoegd voor InclusionAI Ling 2.6 1T Free.
Nieuwe functie: Rungeschiedenis - Modelpagina’s tonen nu historische publieke runs en een zij-aan-zij runvergelijkingstabel. (Voorbeeldmodelpagina)
UX: Het leaderboard ondersteunt nu URL-gestuurde paginering, filters en directe vergelijkingsacties vanuit de ranglijst.
Bugfix: Zoeken op de homepage, filteraantallen en pagineringsstatus blijven nu consistent over de volledige dataset.
Hertest: GLM 5.1 De volledige benchmarksuite is opnieuw uitgevoerd en de publieke rungeschiedenis-snapshot voor dit model is opgeschoond.
Bugfix: Modellen die niet echt opnieuw zijn getest krijgen niet langer een nieuwe tested_at-timestamp.

Changelogpagina aangemaakt

Deze changelog begon pas na de lancering, dus sommige oudere updates ontbreken hier.

2026-02-15

Eerste release