AI BENCHY
Your ad here

AI BENCHY

更新日志

一个按日期分组的产品与基准更新简明记录。我们用它记录新测试的模型、重新测试、基准变更以及已经发布的 UX/产品工作。

2026-04-23

  • 新测试模型: inclusionai/ling-2.6-1t:free 已为 InclusionAI Ling 2.6 1T Free 添加基准测试覆盖。
  • 新功能: 运行历史 - 模型页面现在会显示历史公开运行记录以及并排运行对比表。 (示例模型页面)
  • UX: 排行榜现在支持基于 URL 的分页、筛选,以及从排名列表直接发起对比操作。
  • Bug 修复: 首页搜索、筛选计数和分页状态现在会在整个数据集范围内保持一致。
  • 重新测试: z-ai/glm-5.1 已重新运行完整基准测试套件,并清理了该模型的公开运行历史快照。
  • Bug 修复: 已阻止未实际重新测试的无关模型获得新的 tested_at 时间戳。

更新日志页面已创建

这个更新日志是在上线后才开始记录的,所以部分更早的更新没有列出。

2026-02-15

  • 初始发布