AI BENCHY
Your ad here

AI BENCHY カテゴリ別失敗

ツール呼び出し: 指示に従っていない

ツール呼び出し
指示に従っていない

ツール呼び出し で 指示に従っていない が起きやすいAIモデルを確認し、弱点を早く見つけられます。 並び替え: 応答時間(平均) ↑.

表示モデル数

6

総失敗数

6

最も影響を受けたモデル

GPT-5.4 Mini 1
順位 モデル 企業 指示に従っていない 件数 カテゴリスコア 正解テスト 応答時間(平均)
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.32s
#44 GPT-5.4 Mini medium OpenAI 1 4.7 0/1 9.62s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 12.0s
#25 Grok 4.20 Beta medium X AI 1 3.0 0/1 12.4s
#47 Grok 4.20 medium X AI 1 3.0 0/1 13.7s
#88 Nemotron 3 Super none NVIDIA 1 4.7 0/1 16.0s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル