パズル解決 x 指示に従っていないランキング

パズル解決で指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

Gemini 3.1 Flash Lite 2

失敗理由

不正解201 指示に従っていない90 API エラー12 余分な書式8 タイムアウト5 回答なし3

カテゴリ

パズル解決90 汎用知能78 反AIトリック33 指示追従18 コーディング16 ツール呼び出し8 ドメイン特化1 複合1

86/86

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#139	GPT-5.4 none	OpenAI	1	5.6	$0.397	1/3	1.44s
合計テスト数 3 誤答テスト数 2 合計コスト $0.397 応答時間（平均） 1.44s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
合計テスト数 3 誤答テスト数 3 合計コスト $0.050 応答時間（平均） 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
合計テスト数 3 誤答テスト数 3 合計コスト $0.247 応答時間（平均） 1.00s
#145	GLM 5V Turbo none	Z.ai	1	5.3	$0.052	1/3	2.40s
合計テスト数 3 誤答テスト数 2 合計コスト $0.052 応答時間（平均） 2.40s
#146	Owl Alpha medium	Openrouter	1	5.3	$0.000	1/3	3.40s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 3.40s
#147	Mimo V2 PRO none	Xiaomi	1	6.0	$0.045	1/3	1.61s
合計テスト数 3 誤答テスト数 2 合計コスト $0.045 応答時間（平均） 1.61s
#148	Owl Alpha none	Openrouter	1	5.4	$0.000	1/3	4.18s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 4.18s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.044 応答時間（平均） 23.7s
#152	Qwen3.6 27B none	Qwen	1	5.3	$0.087	1/3	5.15s
合計テスト数 3 誤答テスト数 2 合計コスト $0.087 応答時間（平均） 5.15s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.7	$0.068	1/3	1.30s
合計テスト数 3 誤答テスト数 2 合計コスト $0.068 応答時間（平均） 1.30s
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.015 応答時間（平均） 744ms
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 1.57s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
合計テスト数 3 誤答テスト数 3 合計コスト $0.016 応答時間（平均） 5.36s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
合計テスト数 3 誤答テスト数 1 合計コスト $2.310 応答時間（平均） 46.7s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.022 応答時間（平均） 399ms

←

1 2 3 4 5 6

→

モデルを絞り込む

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

パズル解決: 指示に従っていない

モデルを絞り込む

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル