AI BENCHY
Advertise here

AI BENCHY

Änderungsprotokoll

Ein einfaches Protokoll für Produkt- und Benchmark-Updates, nach Datum gruppiert. Wir erfassen hier neu getestete Modelle, Re-Tests, Benchmark-Änderungen und ausgelieferte UX-/Produktarbeit.

2026-05-08

  • Neu getestete Modelle: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Fehlerbehebung: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Neu getestete Modelle: Cobuddy Benchmark-Abdeckung für Baidu CoBuddy hinzugefügt.

2026-05-01

  • Neu getestete Modelle: Grok 4.3, Granite 4.1 8B Benchmark-Abdeckung für xAI Grok 4.3 und IBM Granite 4.1 8B hinzugefügt.

2026-04-30

  • Neu getestete Modelle: Owl Alpha Benchmark-Abdeckung für Owl Alpha hinzugefügt.

2026-04-26

  • UX: Die mobile Position des Vergleich-Dropdowns wurde verbessert, das Layout der Modellseiten verdichtet und der Verlauf in Modell-Shards aufgeteilt, damit Seiten weniger Verlaufsdaten laden.
  • Fehlerbehebung: Die Laufhistorie gruppiert jetzt nahezu doppelte Re-Tests derselben Suite und zeigt alle öffentlichen Läufe auf Modellseiten in einer direkten Vergleichstabelle.

2026-04-25

  • Neues Feature: Telemetrie für den Zuverlässigkeitswert hinzugefügt, damit Ziel-API- und Rate-Limit-Fehler getrennt von falschen Antworten verfolgt werden.

2026-04-24

  • Neu getestete Modelle: DeepSeek V4 Flash, DeepSeek V4 Pro Benchmark-Abdeckung für DeepSeek V4 Flash und DeepSeek V4 Pro hinzugefügt.
  • Neu getestete Modelle: GPT-5.5 Benchmark-Abdeckung für OpenAI GPT-5.5 hinzugefügt.
  • Fehlerbehebung: Modelllinks im Changelog verweisen jetzt auf kanonische Live-Modellseiten, und Modellseiten verlinken jetzt zwischen Reasoning-Varianten.

2026-04-23

  • Neu getestete Modelle: inclusionai/ling-2.6-1t:free Benchmark-Abdeckung für InclusionAI Ling 2.6 1T Free hinzugefügt.
  • Neues Feature: Laufhistorie - Modellseiten zeigen jetzt historische öffentliche Läufe und eine nebeneinanderstehende Laufvergleichstabelle. (Beispiel-Modellseite)
  • UX: Das Leaderboard unterstützt jetzt URL-basierte Paginierung, Filter und direkte Vergleichsaktionen aus der Rangliste.
  • Fehlerbehebung: Suche auf der Startseite, Filteranzahl und Paginierungsstatus bleiben nun über den gesamten Datensatz konsistent.
  • Re-Test: GLM 5.1 Die vollständige Benchmark-Suite wurde erneut ausgeführt und der öffentliche Snapshot der Laufhistorie dieses Modells wurde bereinigt.
  • Fehlerbehebung: Modelle ohne tatsächlichen Retest erhalten keinen neuen tested_at-Zeitstempel mehr.

Changelog-Seite erstellt

Dieses Changelog begann erst nach dem Launch, daher fehlen hier einige ältere Updates.

2026-02-15

  • Erstveröffentlichung