パズル解決モデルランキング

パズル解決でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↓.

表示モデル数

平均パズル解決スコア

6.7

最良モデル

Muse Spark 1.1 7.8

失敗理由

失敗理由不正解で214 失敗理由指示に従っていないで90 失敗理由 API エラーで12 失敗理由余分な書式で10 失敗理由タイムアウトで5 失敗理由回答なしで3

220/220

順位	モデル	企業	パズル解決スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
合計テスト数 3 誤答テスト数 2 合計コスト $0.333 応答時間（平均） 5.08s
#16	GPT-5.3-Codex medium	OpenAI	9.0	8.9	$0.920	2/3	5.05s
合計テスト数 3 誤答テスト数 1 合計コスト $0.920 応答時間（平均） 5.05s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	3/3	4.74s
合計テスト数 3 誤答テスト数 0 合計コスト $1.253 応答時間（平均） 4.74s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
合計テスト数 3 誤答テスト数 1 合計コスト $3.059 応答時間（平均） 4.71s
#209	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 4.56s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	3/3	4.46s
合計テスト数 3 誤答テスト数 0 合計コスト $0.519 応答時間（平均） 4.46s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
合計テスト数 3 誤答テスト数 1 合計コスト $0.756 応答時間（平均） 4.37s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/3	4.23s
合計テスト数 3 誤答テスト数 2 合計コスト $0.021 応答時間（平均） 4.23s
#154	Owl Alpha none	Openrouter	5.4	5.6	$0.000	1/3	4.18s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 4.18s
#34	GPT-5.2 Chat none	OpenAI	7.7	8.0	$0.604	2/3	4.10s
合計テスト数 3 誤答テスト数 1 合計コスト $0.604 応答時間（平均） 4.10s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	3/3	4.10s
合計テスト数 3 誤答テスト数 0 合計コスト $1.234 応答時間（平均） 4.10s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	4.05s
合計テスト数 3 誤答テスト数 0 合計コスト $0.742 応答時間（平均） 4.05s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
合計テスト数 3 誤答テスト数 1 合計コスト $0.352 応答時間（平均） 4.04s
#161	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.127	0/3	4.04s
合計テスト数 3 誤答テスト数 3 合計コスト $0.127 応答時間（平均） 4.04s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	3/3	3.95s
合計テスト数 3 誤答テスト数 0 合計コスト $1.931 応答時間（平均） 3.95s

パズル解決ランキング

モデルを絞り込む

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル

パズル解決 ランキング

モデルを絞り込む

パズル解決 スコア 上位モデル

パズル解決 スコア vs 合計コスト

応答時間（平均） 上位モデル

パズル解決ランキング

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル