Jurnal de modificări

Un jurnal simplu al actualizărilor de produs și benchmark, grupat după dată. Îl folosim pentru a nota modelele nou testate, retestările, schimbările de benchmark și lucrările UX/produs lansate.

2026-06-17

Modele nou testate: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Funcționalitate nouă: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Remediere de bug: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Modele nou testate: Qwen3.7 Max Am adăugat acoperire de benchmark pentru Qwen 3.7 Max.
Teste noi adăugate: Am adăugat o nouă categorie de test Coding axată pe găsirea de bug-uri în soluții C++.

2026-05-21

Modele nou testate: Gemini 3.5 Flash, Grok Build 0.1 S-a adăugat acoperire de benchmark pentru Google Gemini 3.5 Flash și xAI Grok Build 0.1.
Remediere de bug: Varianta xAI Grok Build 0.1 fără raționament, nesuportată, a fost eliminată după ce validarea furnizorului a cerut raționament.

2026-05-08

Modele nou testate: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Remediere de bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Modele nou testate: Cobuddy Am adăugat acoperire de benchmark pentru Baidu CoBuddy.

2026-05-01

Modele nou testate: Grok 4.3, Granite 4.1 8B Am adăugat acoperire de benchmark pentru xAI Grok 4.3 și IBM Granite 4.1 8B.

2026-04-30

Modele nou testate: Owl Alpha Am adăugat acoperire de benchmark pentru Owl Alpha.

2026-04-26

UX: Am îmbunătățit poziționarea meniului de comparare pe mobil, am compactat layoutul paginilor de model și am împărțit istoricul rulărilor în sharduri pe model, ca paginile să încarce mai puține date istorice.
Remediere de bug: Istoricul rulărilor grupează acum retestările aproape duplicate din aceeași suită și afișează toate rulările publice într-un tabel comparativ direct pe paginile de model.

2026-04-25

Funcționalitate nouă: Am adăugat telemetrie pentru fiabilitate, astfel încât erorile API-ului țintă și de limită de rată să fie urmărite separat de răspunsurile greșite.

2026-04-24

Modele nou testate: DeepSeek V4 Flash, DeepSeek V4 Pro Am adăugat acoperire de benchmark pentru DeepSeek V4 Flash și DeepSeek V4 Pro.
Modele nou testate: GPT-5.5 Am adăugat acoperire de benchmark pentru OpenAI GPT-5.5.
Remediere de bug: Linkurile de modele din changelog duc acum la paginile canonice active ale modelelor, iar paginile de model au acum și legături între variantele de raționament.

2026-04-23

Modele nou testate: inclusionai/ling-2.6-1t:free Am adăugat acoperire de benchmark pentru InclusionAI Ling 2.6 1T Free.
Funcționalitate nouă: Istoric rulări - Paginile modelelor afișează acum rulările publice istorice și un tabel de comparație între două rulări. (Pagină exemplu model)
UX: Clasamentul acceptă acum paginare și filtre bazate pe URL, plus acțiuni directe de comparare din lista de ranking.
Remediere de bug: Căutarea de pe homepage, numărul filtrelor și starea paginării rămân acum consecvente pentru întregul set de date.
Retestare: GLM 5.1 Am rulat din nou suita completă de benchmark și am curățat snapshot-ul public de istoric al rulărilor pentru acest model.
Remediere de bug: Am împiedicat modelele fără retestare reală să primească un nou timestamp tested_at.

Pagină de jurnal creată

Acest changelog a început după lansare, așa că unele actualizări mai vechi lipsesc de aici.

2026-02-15

Lansare inițială