指示追従 x 指示に従っていないランキング

指示追従で指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

失敗理由

不正解61 指示に従っていない18 余分な書式3 回答なし2 API エラー1 タイムアウト1

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

18/18

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
合計テスト数 2 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 685ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
合計テスト数 2 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 1.37s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
合計テスト数 2 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 541ms

モデルを絞り込む