AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY

ベンチマーク方法論

このページでは、ベンチマーク方法を高レベルで説明します。テストの完全性を守るため、正確なプロンプトや採点の内部詳細は非公開です。

仕組み(高レベル)

  • 非公開テスト: 正確なテスト内容、プロンプト、完全な採点詳細は公開しません。
  • 複数回実行: 各モデルを複数回実行し、単発の偶然ではなく安定性を評価します。
  • 推論モード: 対応モデルは複数の推論設定で評価します。
  • OpenRouter 実行: ベンチマークのリクエストは OpenRouter 経由で実行されます。
  • 実運用の信頼性: タイムアウト、ダウンタイム、API エラーは失敗として扱います。
  • 小さく素早い進化型スイート: スイートが比較的小さいため、新モデルを早く検証し、テストを継続的に追加削除できます。
  • 汎用知能の指標: スコアは特定カテゴリ専用ではありません。『AIに何かを尋ねたとき、正しく答える可能性はどれくらいか』を示す広い指標です。

透明性のために方法論は大枠を公開し、機密性の高いベンチマーク詳細は非公開にしています。