AI BENCHY
Advertise here

AI BENCHY

変更履歴

日付ごとにまとめた、製品とベンチマーク更新のシンプルな記録です。新たにテストしたモデル、再テスト、ベンチマーク変更、公開済みの UX/製品改善をここに記録します。

2026-05-08

  • 新しくテストしたモデル: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • バグ修正: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • 新しくテストしたモデル: Cobuddy Baidu CoBuddy のベンチマーク対象を追加しました。

2026-05-01

  • 新しくテストしたモデル: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 と IBM Granite 4.1 8B のベンチマーク対象を追加しました。

2026-04-30

  • 新しくテストしたモデル: Owl Alpha Owl Alpha のベンチマーク対象を追加しました。

2026-04-26

  • UX: モバイルの比較ドロップダウン位置を改善し、モデルページのレイアウトを引き締め、実行履歴をモデル別シャードに分割してページが読み込む履歴データを減らしました。
  • バグ修正: 実行履歴では同じテストスイートのほぼ重複する再テストをまとめ、モデルページで全公開実行を直接比較テーブルとして表示するようになりました。

2026-04-25

  • 新機能: 信頼性スコアのテレメトリを追加し、対象APIとレート制限の失敗を誤答とは別に追跡するようにしました。

2026-04-24

  • 新しくテストしたモデル: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash と DeepSeek V4 Pro のベンチマーク対象を追加しました。
  • 新しくテストしたモデル: GPT-5.5 OpenAI GPT-5.5 のベンチマーク対象を追加しました。
  • バグ修正: 変更履歴のモデルリンクは正規の公開モデルページに解決されるようになり、モデルページ間でも推論バリアントを相互に移動できるようになりました。

2026-04-23

  • 新しくテストしたモデル: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free のベンチマーク対象を追加しました。
  • 新機能: 実行履歴 - モデルページで過去の公開実行履歴と実行同士の並列比較テーブルを表示するようになりました。 (モデルページの例)
  • UX: リーダーボードは URL ベースのページネーション、フィルター、ランキング一覧からの直接比較操作に対応しました。
  • バグ修正: トップページの検索、フィルター件数、ページネーション状態がデータセット全体で一貫して保たれるようになりました。
  • 再テスト: GLM 5.1 完全なベンチマークスイートを再実行し、このモデルの公開実行履歴スナップショットを整理しました。
  • バグ修正: 実際には再テストしていない無関係なモデルに新しい tested_at タイムスタンプが付かないようにしました。

変更ログページを作成しました

この変更ログは公開後に開始したため、古い更新の一部はここに載っていません。

2026-02-15

  • 初回リリース