反AIトリック x 指示に従っていないランキング

反AIトリックで指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

DeepSeek V4 Pro 1

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

32/32

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
合計テスト数 4 誤答テスト数 4 合計コスト $0.096 応答時間（平均） 4.02s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
合計テスト数 4 誤答テスト数 4 合計コスト $0.068 応答時間（平均） 2.67s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
合計テスト数 4 誤答テスト数 4 合計コスト $0.021 応答時間（平均） 1.63s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
合計テスト数 4 誤答テスト数 4 合計コスト $0.025 応答時間（平均） 3.31s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
合計テスト数 4 誤答テスト数 4 合計コスト $0.032 応答時間（平均） 8.64s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
合計テスト数 4 誤答テスト数 4 合計コスト $0.008 応答時間（平均） 1.07s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.004 応答時間（平均） 534ms
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
合計テスト数 4 誤答テスト数 3 合計コスト $0.286 応答時間（平均） 14.9s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 755ms
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
合計テスト数 4 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 15.0s
#199	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
合計テスト数 4 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 11.1s
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 844ms
#21	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
合計テスト数 4 誤答テスト数 2 合計コスト $0.951 応答時間（平均） 7.81s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
合計テスト数 4 誤答テスト数 2 合計コスト $0.237 応答時間（平均） 13.9s

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 指示に従っていない

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル