AI BENCHY
Advertise here

AI BENCHY

Journal des modifications

Un journal simple des mises à jour produit et benchmark, regroupées par date. Nous l'utilisons pour noter les nouveaux modèles testés, les re-tests, les changements de benchmark et les évolutions UX/produit livrées.

2026-05-08

  • Nouveaux modèles testés: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Correction de bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Nouveaux modèles testés: Cobuddy Ajout de la couverture de benchmark pour Baidu CoBuddy.

2026-05-01

  • Nouveaux modèles testés: Grok 4.3, Granite 4.1 8B Ajout de la couverture de benchmark pour xAI Grok 4.3 et IBM Granite 4.1 8B.

2026-04-30

  • Nouveaux modèles testés: Owl Alpha Ajout de la couverture de benchmark pour Owl Alpha.

2026-04-26

  • UX: Amélioration du positionnement mobile du menu de comparaison, resserrement de la mise en page des pages modèle et division de l'historique en shards par modèle pour charger moins de données historiques.
  • Correction de bug: L’historique des runs regroupe désormais les retests quasi dupliqués d’une même suite et affiche tous les runs publics dans un tableau de comparaison direct sur les pages modèle.

2026-04-25

  • Nouvelle fonctionnalité: Ajout d'une télémétrie de fiabilité afin de suivre les échecs de l'API cible et de limite de débit séparément des mauvaises réponses.

2026-04-24

  • Nouveaux modèles testés: DeepSeek V4 Flash, DeepSeek V4 Pro Ajout de la couverture de benchmark pour DeepSeek V4 Flash et DeepSeek V4 Pro.
  • Nouveaux modèles testés: GPT-5.5 Ajout de la couverture de benchmark pour OpenAI GPT-5.5.
  • Correction de bug: Les liens de modèles du changelog pointent désormais vers les pages canoniques actives des modèles, et les pages modèle relient maintenant les variantes de raisonnement entre elles.

2026-04-23

  • Nouveaux modèles testés: inclusionai/ling-2.6-1t:free Ajout de la couverture de benchmark pour InclusionAI Ling 2.6 1T Free.
  • Nouvelle fonctionnalité: Historique des exécutions - Les pages modèle affichent désormais les exécutions publiques historiques et un tableau de comparaison côte à côte. (Page modèle exemple)
  • UX: Le classement prend désormais en charge la pagination et les filtres pilotés par URL, ainsi que des actions de comparaison directe depuis la liste.
  • Correction de bug: La recherche de la page d’accueil, les compteurs de filtres et l’état de la pagination restent désormais cohérents sur l’ensemble du jeu de données.
  • Re-test: GLM 5.1 La suite complète de benchmark a été relancée et le snapshot public d’historique des exécutions de ce modèle a été nettoyé.
  • Correction de bug: Les modèles non retestés ne reçoivent plus un nouveau timestamp tested_at.

Page de changelog créée

Ce changelog a commencé après le lancement, donc certaines mises à jour plus anciennes n’y figurent pas.

2026-02-15

  • Version initiale