パズル解決 x 指示に従っていないランキング

パズル解決で指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

Gemini 3.1 Flash Lite 2

失敗理由

不正解201 指示に従っていない90 API エラー12 余分な書式8 タイムアウト5 回答なし3

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

86/86

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
合計テスト数 3 誤答テスト数 3 合計コスト $0.096 応答時間（平均） 2.17s
#168	MiMo-V2.5 none	Xiaomi	1	5.4	$0.025	1/3	2.13s
合計テスト数 3 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 2.13s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.021 応答時間（平均） 621ms
#170	GLM 5 Turbo none	Z.ai	1	5.5	$0.047	1/3	2.65s
合計テスト数 3 誤答テスト数 2 合計コスト $0.047 応答時間（平均） 2.65s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
合計テスト数 3 誤答テスト数 2 合計コスト $0.163 応答時間（平均） 24.9s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
合計テスト数 3 誤答テスト数 3 合計コスト $0.010 応答時間（平均） 1.21s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
合計テスト数 3 誤答テスト数 2 合計コスト $0.016 応答時間（平均） 1.20s
#177	Nemotron 3 Super none	NVIDIA	1	5.5	$0.008	1/3	2.36s
合計テスト数 3 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 2.36s
#178	Ling-2.6-flash none	Inclusionai	1	2.9	$0.002	0/3	6.51s
合計テスト数 3 誤答テスト数 3 合計コスト $0.002 応答時間（平均） 6.51s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
合計テスト数 3 誤答テスト数 1 合計コスト $0.026 応答時間（平均） 31.5s
#180	GPT-5.4 Nano none	OpenAI	1	5.4	$0.041	1/3	1.25s
合計テスト数 3 誤答テスト数 2 合計コスト $0.041 応答時間（平均） 1.25s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.7	$5.599	1/3	5.19s
合計テスト数 3 誤答テスト数 2 合計コスト $5.599 応答時間（平均） 5.19s
#183	Trinity Large Preview none	Arcee AI	1	3.6	$0.008	0/3	1.97s
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 1.97s
#184	Hunter Alpha medium	OpenRouter	1	6.1	$0.000	1/3	5.35s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 5.35s
#185	Grok 4.1 Fast medium	X AI	1	5.3	$0.069	1/3	7.40s
合計テスト数 3 誤答テスト数 2 合計コスト $0.069 応答時間（平均） 7.40s

←

1 2 3 4 5 6

→

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

パズル解決: 指示に従っていない

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル