2026-04-23
- 新测试模型: inclusionai/ling-2.6-1t:free 已为 InclusionAI Ling 2.6 1T Free 添加基准测试覆盖。
- 新功能: 运行历史 - 模型页面现在会显示历史公开运行记录以及并排运行对比表。 (示例模型页面)
- UX: 排行榜现在支持基于 URL 的分页、筛选,以及从排名列表直接发起对比操作。
- Bug 修复: 首页搜索、筛选计数和分页状态现在会在整个数据集范围内保持一致。
- 重新测试: z-ai/glm-5.1 已重新运行完整基准测试套件,并清理了该模型的公开运行历史快照。
- Bug 修复: 已阻止未实际重新测试的无关模型获得新的 tested_at 时间戳。