指示追従 x 指示に従っていないランキング

指示追従で指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↓.

表示モデル数

総失敗数

最も影響を受けたモデル

Muse Spark 1.1 1

失敗理由

不正解61 指示に従っていない18 余分な書式3 回答なし2 API エラー1 タイムアウト1

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

18/18

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
合計テスト数 2 誤答テスト数 1 合計コスト $1.357 応答時間（平均） 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
合計テスト数 2 誤答テスト数 1 合計コスト $0.647 応答時間（平均） 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
合計テスト数 2 誤答テスト数 1 合計コスト $1.694 応答時間（平均） 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
合計テスト数 2 誤答テスト数 1 合計コスト $0.200 応答時間（平均） 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
合計テスト数 2 誤答テスト数 1 合計コスト $0.524 応答時間（平均） 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
合計テスト数 2 誤答テスト数 1 合計コスト $0.249 応答時間（平均） 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
合計テスト数 2 誤答テスト数 1 合計コスト $0.108 応答時間（平均） 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
合計テスト数 2 誤答テスト数 1 合計コスト $0.349 応答時間（平均） 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
合計テスト数 2 誤答テスト数 1 合計コスト $0.683 応答時間（平均） 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
合計テスト数 2 誤答テスト数 1 合計コスト $0.050 応答時間（平均） 6.97s
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
合計テスト数 2 誤答テスト数 1 合計コスト $0.069 応答時間（平均） 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.340 応答時間（平均） 621ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
合計テスト数 2 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 1.37s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
合計テスト数 2 誤答テスト数 2 合計コスト $0.163 応答時間（平均） 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
合計テスト数 2 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 822ms

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

指示追従: 指示に従っていない

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル