パズル解決モデルランキング

パズル解決でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

平均パズル解決スコア

6.7

最良モデル

GPT-5.4 Nano 4.1

失敗理由

失敗理由不正解で214 失敗理由指示に従っていないで90 失敗理由 API エラーで12 失敗理由余分な書式で10 失敗理由タイムアウトで5 失敗理由回答なしで3

220/220

順位	モデル	企業	パズル解決スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#192	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 1.97s
#196	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/3	1.25s
合計テスト数 3 誤答テスト数 3 合計コスト $0.032 応答時間（平均） 1.25s
#197	Cobuddy medium	Baidu	3.6	4.7	$0.000	0/3	12.8s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 12.8s
#198	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.030 応答時間（平均） 535ms
#200	Laguna S 2.1 none	Poolside	3.1	4.5	$0.025	0/3	828ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.025 応答時間（平均） 828ms
#202	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.009 応答時間（平均） 891ms
#203	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 807ms
#204	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 12.9s
#209	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 4.56s
#211	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 608ms
#213	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 1.10s
#214	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.036 応答時間（平均） 32.3s
#217	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 1.40s
#218	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 532ms
#219	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
合計テスト数 0 誤答テスト数 0 合計コスト $0.020 応答時間（平均） 0ms

パズル解決ランキング

モデルを絞り込む

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル

パズル解決 ランキング

モデルを絞り込む

パズル解決 スコア 上位モデル

パズル解決 スコア vs 合計コスト

応答時間（平均） 上位モデル

パズル解決ランキング

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル