反AIトリック x 指示に従っていないランキング

反AIトリックで指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

Hy3 preview 2

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

32/32

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
合計テスト数 4 誤答テスト数 2 合計コスト $0.019 応答時間（平均） 10.2s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
合計テスト数 4 誤答テスト数 4 合計コスト $0.068 応答時間（平均） 2.67s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
合計テスト数 4 誤答テスト数 4 合計コスト $0.021 応答時間（平均） 1.63s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 755ms
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
合計テスト数 4 誤答テスト数 4 合計コスト $0.025 応答時間（平均） 3.31s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
合計テスト数 4 誤答テスト数 2 合計コスト $0.163 応答時間（平均） 40.3s
#178	Ling-2.6-flash none	Inclusionai	1	6.8	$0.002	2/4	11.8s
合計テスト数 4 誤答テスト数 2 合計コスト $0.002 応答時間（平均） 11.8s
#179	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
合計テスト数 4 誤答テスト数 1 合計コスト $0.026 応答時間（平均） 43.3s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
合計テスト数 4 誤答テスト数 4 合計コスト $0.032 応答時間（平均） 8.64s
#190	MiniMax M2.5 medium	Minimax	1	7.9	$0.340	2/4	20.8s
合計テスト数 4 誤答テスト数 2 合計コスト $0.340 応答時間（平均） 20.8s
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
合計テスト数 4 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 963ms
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
合計テスト数 4 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 15.0s
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 844ms
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
合計テスト数 4 誤答テスト数 4 合計コスト $0.008 応答時間（平均） 1.07s

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 指示に従っていない

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル