AI BENCHY

ベンチマーク方法論

このページでは、ベンチマーク方法を高レベルで説明します。テストの完全性を守るため、正確なプロンプトや採点の内部詳細は非公開です。

テストについて

質問は、さまざまなタスクや分野にまたがって、かなりランダムに選ばれています。統計的に言えば、より強いモデルは、ランダムで恣意的に選ばれていない課題において、平均するとより弱いモデルより良い成績を出すはずです。私は競技プログラミングの背景があるので、テストやエッジケースを考えるのは自然なことです。

これは標準化された "IQ" の値ではありません。スコアに単位はなく、単にモデルがテストスイート全体でどれだけうまくやるかを示す任意の値です（正答 + 一貫性）。特定のモデルに合わせてモデルを選んだりテストを変更したりはしていません。新しいテストを思いついたら追加し、すべてのモデルを再テストしてスコアを再計算します。

質問はたいてい、"モデルに X や Y や Z をやらせたらうまくできるだろうか" といった単純な発想から始まります。たとえば、"合計が 2 になる、等しい 2 つの自然数 a と b を答えてください。必ず a,b の形式で答えてください"。ある AI は "2,2" のように間違えるかもしれません。別の AI は "0,2" のように、2 つの数が等しいという条件を守らないかもしれません。さらに別の AI は "The answer is a = 1 and b = 1" のように出力形式を無視するかもしれません。そして単純に "1,1" と正しく答えるものもあります。

これより複雑なテストもありますが、だいたいの趣旨は伝わるはずです。これは特定のモデルを有利にするものではなく、しかもこうした質問は人間にとっては一般にとても簡単です。

Cristian

仕組み（高レベル）

非公開テスト: 正確なテスト内容、プロンプト、完全な採点詳細は公開しません。
複数回実行: 各モデルを複数回実行し、単発の偶然ではなく安定性を評価します。
推論モード: 対応モデルは複数の推論設定で評価します。
OpenRouter 実行: ベンチマークのリクエストは OpenRouter 経由で実行されます。
実運用の信頼性: タイムアウト、ダウンタイム、API エラーは失敗として扱います。
小さく素早い進化型スイート: スイートが比較的小さいため、新モデルを早く検証し、テストを継続的に追加削除できます。
汎用知能の指標: スコアは特定カテゴリ専用ではありません。『AIに何かを尋ねたとき、正しく答える可能性はどれくらいか』を示す広い指標です。

透明性のために方法論は大枠を公開し、機密性の高いベンチマーク詳細は非公開にしています。