AI BENCHY
Advertise here

AI BENCHY カテゴリ別失敗

複合: 無効なツール呼び出し

複合
無効なツール呼び出し

複合 で 無効なツール呼び出し が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

4

総失敗数

19

最も影響を受けたモデル

Gemini 3.5 Flash 1
順位 モデル 企業 無効なツール呼び出し 件数 カテゴリスコア 正解テスト 応答時間(平均)
#145 Laguna M.1 none Poolside 1 3.0 0/1 4.32s
#154 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#158 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#163 Granite 4.1 8B none IBM Granite 1 3.0 0/1 1.88s

無効なツール呼び出し 件数 上位モデル

無効なツール呼び出し 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル