Änderungsprotokoll

Ein einfaches Protokoll für Produkt- und Benchmark-Updates, nach Datum gruppiert. Wir erfassen hier neu getestete Modelle, Re-Tests, Benchmark-Änderungen und ausgelieferte UX-/Produktarbeit.

2026-06-17

Neu getestete Modelle: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Neues Feature: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Fehlerbehebung: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Neu getestete Modelle: Qwen3.7 Max Benchmark-Abdeckung für Qwen 3.7 Max hinzugefügt.
Neue Tests hinzugefügt: Neue Coding-Testkategorie hinzugefügt, die sich auf die Fehlersuche in C++-Lösungen konzentriert.

2026-05-21

Neu getestete Modelle: Gemini 3.5 Flash, Grok Build 0.1 Benchmark-Abdeckung für Google Gemini 3.5 Flash und xAI Grok Build 0.1 hinzugefügt.
Fehlerbehebung: Die nicht unterstützte xAI Grok Build 0.1-Variante ohne Reasoning wurde entfernt, nachdem die Provider-Validierung Reasoning verlangte.

2026-05-08

Neu getestete Modelle: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Fehlerbehebung: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Neu getestete Modelle: Cobuddy Benchmark-Abdeckung für Baidu CoBuddy hinzugefügt.

2026-05-01

Neu getestete Modelle: Grok 4.3, Granite 4.1 8B Benchmark-Abdeckung für xAI Grok 4.3 und IBM Granite 4.1 8B hinzugefügt.

2026-04-30

Neu getestete Modelle: Owl Alpha Benchmark-Abdeckung für Owl Alpha hinzugefügt.

2026-04-26

UX: Die mobile Position des Vergleich-Dropdowns wurde verbessert, das Layout der Modellseiten verdichtet und der Verlauf in Modell-Shards aufgeteilt, damit Seiten weniger Verlaufsdaten laden.
Fehlerbehebung: Die Laufhistorie gruppiert jetzt nahezu doppelte Re-Tests derselben Suite und zeigt alle öffentlichen Läufe auf Modellseiten in einer direkten Vergleichstabelle.

2026-04-25

Neues Feature: Telemetrie für den Zuverlässigkeitswert hinzugefügt, damit Ziel-API- und Rate-Limit-Fehler getrennt von falschen Antworten verfolgt werden.

2026-04-24

Neu getestete Modelle: DeepSeek V4 Flash, DeepSeek V4 Pro Benchmark-Abdeckung für DeepSeek V4 Flash und DeepSeek V4 Pro hinzugefügt.
Neu getestete Modelle: GPT-5.5 Benchmark-Abdeckung für OpenAI GPT-5.5 hinzugefügt.
Fehlerbehebung: Modelllinks im Changelog verweisen jetzt auf kanonische Live-Modellseiten, und Modellseiten verlinken jetzt zwischen Reasoning-Varianten.

2026-04-23

Neu getestete Modelle: inclusionai/ling-2.6-1t:free Benchmark-Abdeckung für InclusionAI Ling 2.6 1T Free hinzugefügt.
Neues Feature: Laufhistorie - Modellseiten zeigen jetzt historische öffentliche Läufe und eine nebeneinanderstehende Laufvergleichstabelle. (Beispiel-Modellseite)
UX: Das Leaderboard unterstützt jetzt URL-basierte Paginierung, Filter und direkte Vergleichsaktionen aus der Rangliste.
Fehlerbehebung: Suche auf der Startseite, Filteranzahl und Paginierungsstatus bleiben nun über den gesamten Datensatz konsistent.
Re-Test: GLM 5.1 Die vollständige Benchmark-Suite wurde erneut ausgeführt und der öffentliche Snapshot der Laufhistorie dieses Modells wurde bereinigt.
Fehlerbehebung: Modelle ohne tatsächlichen Retest erhalten keinen neuen tested_at-Zeitstempel mehr.

Changelog-Seite erstellt

Dieses Changelog begann erst nach dem Launch, daher fehlen hier einige ältere Updates.

2026-02-15

Erstveröffentlichung