AI BENCHY 失敗分析
無効なツール呼び出し の失敗
どのAIモデルで 無効なツール呼び出し が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 応答時間(平均) ↑.
関連カテゴリ
| 順位 | モデル | 企業 | 無効なツール呼び出し 件数 | 平均スコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |