パズル解決 x 不正解ランキング

パズル解決で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

204

最も影響を受けたモデル

Qwen3.5-Flash 3

失敗理由

不正解204 指示に従っていない90 API エラー12 余分な書式8 タイムアウト5 回答なし3

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

145/145

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
合計テスト数 3 誤答テスト数 1 合計コスト $0.187 応答時間（平均） 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
合計テスト数 3 誤答テスト数 1 合計コスト $0.676 応答時間（平均） 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
合計テスト数 3 誤答テスト数 1 合計コスト $3.059 応答時間（平均） 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
合計テスト数 3 誤答テスト数 1 合計コスト $1.017 応答時間（平均） 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.200 応答時間（平均） 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
合計テスト数 3 誤答テスト数 1 合計コスト $0.286 応答時間（平均） 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
合計テスト数 3 誤答テスト数 1 合計コスト $1.097 応答時間（平均） 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
合計テスト数 3 誤答テスト数 1 合計コスト $0.352 応答時間（平均） 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.740 応答時間（平均） 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
合計テスト数 3 誤答テスト数 1 合計コスト $0.115 応答時間（平均） 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
合計テスト数 3 誤答テスト数 1 合計コスト $0.117 応答時間（平均） 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
合計テスト数 3 誤答テスト数 2 合計コスト $1.036 応答時間（平均） 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
合計テスト数 3 誤答テスト数 1 合計コスト $0.482 応答時間（平均） 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
合計テスト数 3 誤答テスト数 1 合計コスト $0.317 応答時間（平均） 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
合計テスト数 3 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 1.71s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

パズル解決: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル