AI BENCHY
Advertise here

AI BENCHY

更新日志

一个按日期分组的产品与基准更新简明记录。我们用它记录新测试的模型、重新测试、基准变更以及已经发布的 UX/产品工作。

2026-05-08

  • 新测试模型: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Bug 修复: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • 新测试模型: Cobuddy 已为百度 CoBuddy 添加基准测试覆盖。

2026-05-01

  • 新测试模型: Grok 4.3, Granite 4.1 8B 已为 xAI Grok 4.3 和 IBM Granite 4.1 8B 添加基准测试覆盖。

2026-04-30

  • 新测试模型: Owl Alpha 已为 Owl Alpha 添加基准测试覆盖。

2026-04-26

  • UX: 改进了移动端对比下拉菜单的位置,压缩了模型页面布局,并将运行历史拆分为按模型划分的分片,以减少页面加载的历史数据。
  • Bug 修复: 运行历史现在会合并同一测试套件中近似重复的重测,并在模型页面以直接对比表显示所有公开运行。

2026-04-25

  • 新功能: 新增可靠性分数遥测,将目标 API 和速率限制失败与错误答案分开跟踪。

2026-04-24

  • 新测试模型: DeepSeek V4 Flash, DeepSeek V4 Pro 已为 DeepSeek V4 Flash 和 DeepSeek V4 Pro 添加基准测试覆盖。
  • 新测试模型: GPT-5.5 已为 OpenAI GPT-5.5 添加基准测试覆盖。
  • Bug 修复: 更新日志中的模型链接现在会解析到规范的在线模型页面,模型页面之间也会互相链接到不同推理变体。

2026-04-23

  • 新测试模型: inclusionai/ling-2.6-1t:free 已为 InclusionAI Ling 2.6 1T Free 添加基准测试覆盖。
  • 新功能: 运行历史 - 模型页面现在会显示历史公开运行记录以及并排运行对比表。 (示例模型页面)
  • UX: 排行榜现在支持基于 URL 的分页、筛选,以及从排名列表直接发起对比操作。
  • Bug 修复: 首页搜索、筛选计数和分页状态现在会在整个数据集范围内保持一致。
  • 重新测试: GLM 5.1 已重新运行完整基准测试套件,并清理了该模型的公开运行历史快照。
  • Bug 修复: 已阻止未实际重新测试的无关模型获得新的 tested_at 时间戳。

更新日志页面已创建

这个更新日志是在上线后才开始记录的,所以部分更早的更新没有列出。

2026-02-15

  • 初始发布