反AIトリック x 指示に従っていないランキング

反AIトリックで指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Laguna Xs.2 1

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

32/32

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.004 応答時間（平均） 534ms
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 755ms
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 844ms
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
合計テスト数 4 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 963ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.052	2/4	1.04s
合計テスト数 4 誤答テスト数 2 合計コスト $0.052 応答時間（平均） 1.04s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
合計テスト数 4 誤答テスト数 4 合計コスト $0.008 応答時間（平均） 1.07s
#78	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
合計テスト数 4 誤答テスト数 2 合計コスト $0.093 応答時間（平均） 1.12s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
合計テスト数 4 誤答テスト数 4 合計コスト $0.021 応答時間（平均） 1.63s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.115	3/4	2.33s
合計テスト数 4 誤答テスト数 1 合計コスト $0.115 応答時間（平均） 2.33s
#65	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.117	3/4	2.39s
合計テスト数 4 誤答テスト数 1 合計コスト $0.117 応答時間（平均） 2.39s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
合計テスト数 4 誤答テスト数 4 合計コスト $0.068 応答時間（平均） 2.67s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 2.78s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
合計テスト数 4 誤答テスト数 4 合計コスト $0.025 応答時間（平均） 3.31s
#54	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
合計テスト数 4 誤答テスト数 2 合計コスト $0.571 応答時間（平均） 3.86s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
合計テスト数 4 誤答テスト数 4 合計コスト $0.096 応答時間（平均） 4.02s

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 指示に従っていない

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル