ツール呼び出し x 指示に従っていないランキング | AI BENCHY

ツール呼び出しで指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

8

総失敗数

8

最も影響を受けたモデル

失敗理由

API エラー17 無効なツール呼び出し9 指示に従っていない8 不正解3 回答なし2

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

8/8

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
合計テスト数 1 誤答テスト数 1 合計コスト $0.756 応答時間（平均） 9.62s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.777 応答時間（平均） 13.7s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
合計テスト数 1 誤答テスト数 1 合計コスト $0.187 応答時間（平均） 2.57s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
合計テスト数 1 誤答テスト数 1 合計コスト $0.750 応答時間（平均） 12.4s
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
合計テスト数 1 誤答テスト数 1 合計コスト $0.095 応答時間（平均） 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
合計テスト数 1 誤答テスト数 1 合計コスト $0.147 応答時間（平均） 2.50s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.163 応答時間（平均） 12.0s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 16.0s

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル