AI BENCHY カテゴリ別失敗
ツール呼び出し: 無効なツール呼び出し
ツール呼び出し
無効なツール呼び出し
ツール呼び出し で 無効なツール呼び出し が起きやすいAIモデルを確認し、弱点を早く見つけられます。 並び替え: 応答時間(平均) ↑.
| 順位 | モデル | 企業 | 無効なツール呼び出し 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #85 | Elephant none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |
| #81 | Elephant medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |