指示に従っていない失敗ランキング

どのAIモデルで指示に従っていないが起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 正解テスト ↑.

表示モデル数

総失敗数

246

最も影響を受けたモデル

Granite 4.1 8B 4

カテゴリ

パズル解決カテゴリで90 汎用知能カテゴリで78 反AIトリックカテゴリで33 指示追従カテゴリで19 コーディングカテゴリで16 ツール呼び出しカテゴリで8 ドメイン特化カテゴリで1 複合カテゴリで1

141/141

順位	モデル	企業	指示に従っていない件数	スコア	合計コスト	正解テスト	応答時間（平均）
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
合計テスト数 22 誤答テスト数 12 合計コスト $0.021 応答時間（平均） 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
合計テスト数 22 誤答テスト数 12 合計コスト $0.249 応答時間（平均） 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
合計テスト数 22 誤答テスト数 12 合計コスト $0.047 応答時間（平均） 1.86s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
合計テスト数 22 誤答テスト数 12 合計コスト $0.187 応答時間（平均） 5.15s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
合計テスト数 19 誤答テスト数 10 合計コスト $0.069 応答時間（平均） 23.8s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
合計テスト数 19 誤答テスト数 10 合計コスト $0.033 応答時間（平均） 14.7s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
合計テスト数 21 誤答テスト数 11 合計コスト $0.683 応答時間（平均） 41.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
合計テスト数 22 誤答テスト数 11 合計コスト $0.106 応答時間（平均） 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
合計テスト数 22 誤答テスト数 11 合計コスト $0.078 応答時間（平均） 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
合計テスト数 22 誤答テスト数 11 合計コスト $0.101 応答時間（平均） 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
合計テスト数 22 誤答テスト数 11 合計コスト $0.467 応答時間（平均） 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
合計テスト数 22 誤答テスト数 11 合計コスト $0.524 応答時間（平均） 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
合計テスト数 22 誤答テスト数 11 合計コスト $0.103 応答時間（平均） 68.7s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
合計テスト数 12 誤答テスト数 6 合計コスト $0.020 応答時間（平均） 39.0s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
合計テスト数 21 誤答テスト数 10 合計コスト $0.457 応答時間（平均） 23.1s

指示に従っていないの失敗

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

指示に従っていない の失敗

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

指示に従っていないの失敗

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル