2026-05-21 新测试模型: Gemini 3.5 Flash, Grok Build 0.1 已添加 Google Gemini 3.5 Flash 和 xAI Grok Build 0.1 的基准覆盖。 Bug 修复: 在提供商验证要求启用 reasoning 后,已移除不受支持的 xAI Grok Build 0.1 无 reasoning 变体。
2026-05-08 新测试模型: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite. Bug 修复: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto. UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.
2026-04-26 UX: 改进了移动端对比下拉菜单的位置,压缩了模型页面布局,并将运行历史拆分为按模型划分的分片,以减少页面加载的历史数据。 Bug 修复: 运行历史现在会合并同一测试套件中近似重复的重测,并在模型页面以直接对比表显示所有公开运行。
2026-04-24 新测试模型: DeepSeek V4 Flash, DeepSeek V4 Pro 已为 DeepSeek V4 Flash 和 DeepSeek V4 Pro 添加基准测试覆盖。 新测试模型: GPT-5.5 已为 OpenAI GPT-5.5 添加基准测试覆盖。 Bug 修复: 更新日志中的模型链接现在会解析到规范的在线模型页面,模型页面之间也会互相链接到不同推理变体。
2026-04-23 新测试模型: inclusionai/ling-2.6-1t:free 已为 InclusionAI Ling 2.6 1T Free 添加基准测试覆盖。 新功能: 运行历史 - 模型页面现在会显示历史公开运行记录以及并排运行对比表。 (示例模型页面) UX: 排行榜现在支持基于 URL 的分页、筛选,以及从排名列表直接发起对比操作。 Bug 修复: 首页搜索、筛选计数和分页状态现在会在整个数据集范围内保持一致。 重新测试: GLM 5.1 已重新运行完整基准测试套件,并清理了该模型的公开运行历史快照。 Bug 修复: 已阻止未实际重新测试的无关模型获得新的 tested_at 时间戳。