変更履歴

日付ごとにまとめた、製品とベンチマーク更新のシンプルな記録です。新たにテストしたモデル、再テスト、ベンチマーク変更、公開済みの UX/製品改善をここに記録します。

2026-06-17

新しくテストしたモデル: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
新機能: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
バグ修正: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

新しくテストしたモデル: Gemini 3.5 Flash, Grok Build 0.1 Google Gemini 3.5 Flash と xAI Grok Build 0.1 のベンチマーク対応を追加しました。
バグ修正: プロバイダー検証で reasoning が必須とされたため、サポートされていない xAI Grok Build 0.1 の no-reasoning バリアントを削除しました。

新しくテストしたモデル: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
バグ修正: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

新しくテストしたモデル: Grok 4.3, Granite 4.1 8B xAI Grok 4.3 と IBM Granite 4.1 8B のベンチマーク対象を追加しました。

UX: モバイルの比較ドロップダウン位置を改善し、モデルページのレイアウトを引き締め、実行履歴をモデル別シャードに分割してページが読み込む履歴データを減らしました。
バグ修正: 実行履歴では同じテストスイートのほぼ重複する再テストをまとめ、モデルページで全公開実行を直接比較テーブルとして表示するようになりました。

新しくテストしたモデル: DeepSeek V4 Flash, DeepSeek V4 Pro DeepSeek V4 Flash と DeepSeek V4 Pro のベンチマーク対象を追加しました。
新しくテストしたモデル: GPT-5.5 OpenAI GPT-5.5 のベンチマーク対象を追加しました。
バグ修正: 変更履歴のモデルリンクは正規の公開モデルページに解決されるようになり、モデルページ間でも推論バリアントを相互に移動できるようになりました。

新しくテストしたモデル: inclusionai/ling-2.6-1t:free InclusionAI Ling 2.6 1T Free のベンチマーク対象を追加しました。
新機能: 実行履歴 - モデルページで過去の公開実行履歴と実行同士の並列比較テーブルを表示するようになりました。 (モデルページの例)
UX: リーダーボードは URL ベースのページネーション、フィルター、ランキング一覧からの直接比較操作に対応しました。
バグ修正: トップページの検索、フィルター件数、ページネーション状態がデータセット全体で一貫して保たれるようになりました。
再テスト: GLM 5.1 完全なベンチマークスイートを再実行し、このモデルの公開実行履歴スナップショットを整理しました。
バグ修正: 実際には再テストしていない無関係なモデルに新しい tested_at タイムスタンプが付かないようにしました。

変更ログページを作成しました

この変更ログは公開後に開始したため、古い更新の一部はここに載っていません。