AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY 失敗分析

無効なツール呼び出し の失敗

どのAIモデルで 無効なツール呼び出し が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 平均スコア ↑.

表示モデル数

4

総失敗数

4

最も影響を受けたモデル

GLM 4.7 Flash 1

関連カテゴリ

順位 モデル 企業 無効なツール呼び出し 件数 平均スコア 正解テスト 応答時間(平均)
#52 GLM 4.7 Flash medium Z.ai 1 3.1 4/16 36.8s
#49 GLM 4.7 Flash none Z.ai 1 3.9 4/16 2.99s
#43 MiniMax M2.5 medium Minimax 1 4.7 5/16 43.0s
#33 DeepSeek V3.2 none DeepSeek 1 5.5 7/16 12.9s

無効なツール呼び出し 件数 上位モデル

無効なツール呼び出し 件数 vs 平均スコア

応答時間(平均) 上位モデル