Journal des modifications

Un journal simple des mises à jour produit et benchmark, regroupées par date. Nous l'utilisons pour noter les nouveaux modèles testés, les re-tests, les changements de benchmark et les évolutions UX/produit livrées.

2026-06-17

Nouveaux modèles testés: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Nouvelle fonctionnalité: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Correction de bug: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Nouveaux modèles testés: Qwen3.7 Max Ajout de la couverture de benchmark pour Qwen 3.7 Max.
Nouveaux tests ajoutés: Ajout d'une nouvelle catégorie de test Coding axée sur la recherche de bugs dans des solutions C++.

2026-05-21

Nouveaux modèles testés: Gemini 3.5 Flash, Grok Build 0.1 Ajout de la couverture de benchmark pour Google Gemini 3.5 Flash et xAI Grok Build 0.1.
Correction de bug: Suppression de la variante sans raisonnement non prise en charge de xAI Grok Build 0.1 après que la validation du fournisseur a exigé le raisonnement.

2026-05-08

Nouveaux modèles testés: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Correction de bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Nouveaux modèles testés: Cobuddy Ajout de la couverture de benchmark pour Baidu CoBuddy.

2026-05-01

Nouveaux modèles testés: Grok 4.3, Granite 4.1 8B Ajout de la couverture de benchmark pour xAI Grok 4.3 et IBM Granite 4.1 8B.

2026-04-30

Nouveaux modèles testés: Owl Alpha Ajout de la couverture de benchmark pour Owl Alpha.

2026-04-26

UX: Amélioration du positionnement mobile du menu de comparaison, resserrement de la mise en page des pages modèle et division de l'historique en shards par modèle pour charger moins de données historiques.
Correction de bug: L’historique des runs regroupe désormais les retests quasi dupliqués d’une même suite et affiche tous les runs publics dans un tableau de comparaison direct sur les pages modèle.

2026-04-25

Nouvelle fonctionnalité: Ajout d'une télémétrie de fiabilité afin de suivre les échecs de l'API cible et de limite de débit séparément des mauvaises réponses.

2026-04-24

Nouveaux modèles testés: DeepSeek V4 Flash, DeepSeek V4 Pro Ajout de la couverture de benchmark pour DeepSeek V4 Flash et DeepSeek V4 Pro.
Nouveaux modèles testés: GPT-5.5 Ajout de la couverture de benchmark pour OpenAI GPT-5.5.
Correction de bug: Les liens de modèles du changelog pointent désormais vers les pages canoniques actives des modèles, et les pages modèle relient maintenant les variantes de raisonnement entre elles.

2026-04-23

Nouveaux modèles testés: inclusionai/ling-2.6-1t:free Ajout de la couverture de benchmark pour InclusionAI Ling 2.6 1T Free.
Nouvelle fonctionnalité: Historique des exécutions - Les pages modèle affichent désormais les exécutions publiques historiques et un tableau de comparaison côte à côte. (Page modèle exemple)
UX: Le classement prend désormais en charge la pagination et les filtres pilotés par URL, ainsi que des actions de comparaison directe depuis la liste.
Correction de bug: La recherche de la page d’accueil, les compteurs de filtres et l’état de la pagination restent désormais cohérents sur l’ensemble du jeu de données.
Re-test: GLM 5.1 La suite complète de benchmark a été relancée et le snapshot public d’historique des exécutions de ce modèle a été nettoyé.
Correction de bug: Les modèles non retestés ne reçoivent plus un nouveau timestamp tested_at.

Page de changelog créée

Ce changelog a commencé après le lancement, donc certaines mises à jour plus anciennes n’y figurent pas.

2026-02-15

Version initiale