AI BENCHY カテゴリ別失敗
複合
無効なツール呼び出し
複合
無効なツール呼び出し
複合 で 無効なツール呼び出し が起きやすいAIモデルを確認し、弱点を早く見つけられます。
関連する失敗理由
関連カテゴリ
| 順位 | モデル | 企業 | 無効なツール呼び出し 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |