パズル解決モデルランキング

パズル解決でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。

表示モデル数

平均パズル解決スコア

6.7

最良モデル

Gemini 3 Flash Preview 10.0

失敗理由

失敗理由不正解で193 失敗理由指示に従っていないで88 失敗理由 API エラーで12 失敗理由余分な書式で7 失敗理由タイムアウトで5 失敗理由回答なしで3

206/206

順位	モデル	企業	パズル解決スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	4.05s
合計テスト数 3 誤答テスト数 0 合計コスト $0.742 応答時間（平均） 4.05s
#2	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	3/3	3.23s
合計テスト数 3 誤答テスト数 0 合計コスト $1.976 応答時間（平均） 3.23s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	3/3	4.10s
合計テスト数 3 誤答テスト数 0 合計コスト $1.234 応答時間（平均） 4.10s
#6	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	3/3	4.74s
合計テスト数 3 誤答テスト数 0 合計コスト $1.253 応答時間（平均） 4.74s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	3/3	6.90s
合計テスト数 3 誤答テスト数 0 合計コスト $1.361 応答時間（平均） 6.90s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	3/3	8.84s
合計テスト数 3 誤答テスト数 0 合計コスト $1.116 応答時間（平均） 8.84s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	3/3	6.76s
合計テスト数 3 誤答テスト数 0 合計コスト $4.137 応答時間（平均） 6.76s
#11	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	3/3	2.35s
合計テスト数 3 誤答テスト数 0 合計コスト $0.433 応答時間（平均） 2.35s
#12	Grok 4.5 high	X AI	10.0	8.9	$1.707	3/3	7.88s
合計テスト数 3 誤答テスト数 0 合計コスト $1.707 応答時間（平均） 7.88s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	3/3	3.95s
合計テスト数 3 誤答テスト数 0 合計コスト $1.931 応答時間（平均） 3.95s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	3/3	2.43s
合計テスト数 3 誤答テスト数 0 合計コスト $1.477 応答時間（平均） 2.43s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	3/3	24.3s
合計テスト数 3 誤答テスト数 0 合計コスト $1.143 応答時間（平均） 24.3s
#20	Grok 4.5 low	X AI	10.0	8.4	$0.935	3/3	3.20s
合計テスト数 3 誤答テスト数 0 合計コスト $0.935 応答時間（平均） 3.20s
#22	Grok 4.5 medium	X AI	10.0	8.3	$1.928	3/3	7.75s
合計テスト数 3 誤答テスト数 0 合計コスト $1.928 応答時間（平均） 7.75s
#32	Inkling medium	Thinkingmachines	10.0	8.0	$0.391	3/3	5.18s
合計テスト数 3 誤答テスト数 0 合計コスト $0.391 応答時間（平均） 5.18s

パズル解決ランキング

モデルを絞り込む

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル

パズル解決 ランキング

モデルを絞り込む

パズル解決 スコア 上位モデル

パズル解決 スコア vs 合計コスト

応答時間（平均） 上位モデル

パズル解決ランキング

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル