AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Jurnal de modificări

Un jurnal simplu al actualizărilor de produs și benchmark, grupat după dată. Îl folosim pentru a nota modelele nou testate, retestările, schimbările de benchmark și lucrările UX/produs lansate.

2026-05-08

  • Modele nou testate: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Remediere de bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Modele nou testate: Cobuddy Am adăugat acoperire de benchmark pentru Baidu CoBuddy.

2026-05-01

  • Modele nou testate: Grok 4.3, Granite 4.1 8B Am adăugat acoperire de benchmark pentru xAI Grok 4.3 și IBM Granite 4.1 8B.

2026-04-30

  • Modele nou testate: Owl Alpha Am adăugat acoperire de benchmark pentru Owl Alpha.

2026-04-26

  • UX: Am îmbunătățit poziționarea meniului de comparare pe mobil, am compactat layoutul paginilor de model și am împărțit istoricul rulărilor în sharduri pe model, ca paginile să încarce mai puține date istorice.
  • Remediere de bug: Istoricul rulărilor grupează acum retestările aproape duplicate din aceeași suită și afișează toate rulările publice într-un tabel comparativ direct pe paginile de model.

2026-04-25

  • Funcționalitate nouă: Am adăugat telemetrie pentru fiabilitate, astfel încât erorile API-ului țintă și de limită de rată să fie urmărite separat de răspunsurile greșite.

2026-04-24

  • Modele nou testate: DeepSeek V4 Flash, DeepSeek V4 Pro Am adăugat acoperire de benchmark pentru DeepSeek V4 Flash și DeepSeek V4 Pro.
  • Modele nou testate: GPT-5.5 Am adăugat acoperire de benchmark pentru OpenAI GPT-5.5.
  • Remediere de bug: Linkurile de modele din changelog duc acum la paginile canonice active ale modelelor, iar paginile de model au acum și legături între variantele de raționament.

2026-04-23

  • Modele nou testate: inclusionai/ling-2.6-1t:free Am adăugat acoperire de benchmark pentru InclusionAI Ling 2.6 1T Free.
  • Funcționalitate nouă: Istoric rulări - Paginile modelelor afișează acum rulările publice istorice și un tabel de comparație între două rulări. (Pagină exemplu model)
  • UX: Clasamentul acceptă acum paginare și filtre bazate pe URL, plus acțiuni directe de comparare din lista de ranking.
  • Remediere de bug: Căutarea de pe homepage, numărul filtrelor și starea paginării rămân acum consecvente pentru întregul set de date.
  • Retestare: GLM 5.1 Am rulat din nou suita completă de benchmark și am curățat snapshot-ul public de istoric al rulărilor pentru acest model.
  • Remediere de bug: Am împiedicat modelele fără retestare reală să primească un nou timestamp tested_at.

Pagină de jurnal creată

Acest changelog a început după lansare, așa că unele actualizări mai vechi lipsesc de aici.

2026-02-15

  • Lansare inițială