AI BENCHY
ベンチマーク方法論
このページでは、ベンチマーク方法を高レベルで説明します。テストの完全性を守るため、正確なプロンプトや採点の内部詳細は非公開です。
仕組み(高レベル)
- 非公開テスト: 正確なテスト内容、プロンプト、完全な採点詳細は公開しません。
- 複数回実行: 各モデルを複数回実行し、単発の偶然ではなく安定性を評価します。
- 推論モード: 対応モデルは複数の推論設定で評価します。
- OpenRouter 実行: ベンチマークのリクエストは OpenRouter 経由で実行されます。
- 実運用の信頼性: タイムアウト、ダウンタイム、API エラーは失敗として扱います。
- 小さく素早い進化型スイート: スイートが比較的小さいため、新モデルを早く検証し、テストを継続的に追加削除できます。
- 汎用知能の指標: スコアは特定カテゴリ専用ではありません。『AIに何かを尋ねたとき、正しく答える可能性はどれくらいか』を示す広い指標です。
透明性のために方法論は大枠を公開し、機密性の高いベンチマーク詳細は非公開にしています。