指示に従っていない失敗ランキング

どのAIモデルで指示に従っていないが起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

総失敗数

245

最も影響を受けたモデル

MiniMax M2.7 5

カテゴリ

パズル解決カテゴリで90 汎用知能カテゴリで78 反AIトリックカテゴリで33 指示追従カテゴリで18 コーディングカテゴリで16 ツール呼び出しカテゴリで8 ドメイン特化カテゴリで1 複合カテゴリで1

140/140

順位	モデル	企業	指示に従っていない件数	スコア	合計コスト	正解テスト	応答時間（平均）
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
合計テスト数 18 誤答テスト数 8 合計コスト $2.044 応答時間（平均） 62.0s
#148	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
合計テスト数 21 誤答テスト数 14 合計コスト $0.000 応答時間（平均） 9.88s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
合計テスト数 21 誤答テスト数 17 合計コスト $0.008 応答時間（平均） 2.98s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
合計テスト数 22 誤答テスト数 18 合計コスト $0.032 応答時間（平均） 9.61s
#188	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
合計テスト数 21 誤答テスト数 14 合計コスト $0.000 応答時間（平均） 39.9s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
合計テスト数 22 誤答テスト数 17 合計コスト $0.340 応答時間（平均） 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
合計テスト数 21 誤答テスト数 16 合計コスト $0.000 応答時間（平均） 1.22s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
合計テスト数 19 誤答テスト数 16 合計コスト $0.008 応答時間（平均） 1.62s
#13	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
合計テスト数 22 誤答テスト数 6 合計コスト $0.920 応答時間（平均） 17.0s
#16	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
合計テスト数 22 誤答テスト数 7 合計コスト $1.357 応答時間（平均） 25.0s
#18	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
合計テスト数 22 誤答テスト数 7 合計コスト $1.533 応答時間（平均） 23.1s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
合計テスト数 22 誤答テスト数 9 合計コスト $0.647 応答時間（平均） 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
合計テスト数 22 誤答テスト数 10 合計コスト $1.694 応答時間（平均） 31.5s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
合計テスト数 22 誤答テスト数 8 合計コスト $0.234 応答時間（平均） 48.5s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
合計テスト数 22 誤答テスト数 9 合計コスト $0.042 応答時間（平均） 49.7s

指示に従っていないの失敗

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

指示に従っていない の失敗

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

指示に従っていないの失敗

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル