比較するチャート方法論

言語:

❤️ Made by XCS

AI BENCHY

ベンチマーク方法論

このページでは、ベンチマーク方法を高レベルで説明します。テストの完全性を守るため、正確なプロンプトや採点の内部詳細は非公開です。

仕組み（高レベル）

非公開テスト: 正確なテスト内容、プロンプト、完全な採点詳細は公開しません。
複数回実行: 各モデルを複数回実行し、単発の偶然ではなく安定性を評価します。
推論モード: 対応モデルは複数の推論設定で評価します。
OpenRouter 実行: ベンチマークのリクエストは OpenRouter 経由で実行されます。
実運用の信頼性: タイムアウト、ダウンタイム、API エラーは失敗として扱います。
小さく素早い進化型スイート: スイートが比較的小さいため、新モデルを早く検証し、テストを継続的に追加削除できます。
汎用知能の指標: スコアは特定カテゴリ専用ではありません。『AIに何かを尋ねたとき、正しく答える可能性はどれくらいか』を示す広い指標です。

透明性のために方法論は大枠を公開し、機密性の高いベンチマーク詳細は非公開にしています。