パズル解決モデルランキング

パズル解決でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

平均パズル解決スコア

6.7

最良モデル

GPT-5.4 Nano 4.1

失敗理由

失敗理由不正解で204 失敗理由指示に従っていないで90 失敗理由 API エラーで12 失敗理由余分な書式で8 失敗理由タイムアウトで5 失敗理由回答なしで3

216/216

順位	モデル	企業	パズル解決スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#204	Laguna Xs.2 medium	Poolside	5.3	4.1	$0.015	1/3	1.93s
合計テスト数 3 誤答テスト数 2 合計コスト $0.015 応答時間（平均） 1.93s
#206	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	1.86s
合計テスト数 3 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 1.86s
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
合計テスト数 3 誤答テスト数 2 合計コスト $0.547 応答時間（平均） 9.55s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	650ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.004 応答時間（平均） 650ms
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
合計テスト数 3 誤答テスト数 2 合計コスト $0.010 応答時間（平均） 8.21s
#5	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
合計テスト数 3 誤答テスト数 1 合計コスト $0.971 応答時間（平均） 3.44s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
合計テスト数 3 誤答テスト数 1 合計コスト $1.316 応答時間（平均） 2.98s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
合計テスト数 3 誤答テスト数 1 合計コスト $0.642 応答時間（平均） 2.38s
#16	GPT-5.3-Codex medium	OpenAI	9.0	8.9	$0.920	2/3	5.05s
合計テスト数 3 誤答テスト数 1 合計コスト $0.920 応答時間（平均） 5.05s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
合計テスト数 3 誤答テスト数 1 合計コスト $1.357 応答時間（平均） 42.5s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
合計テスト数 3 誤答テスト数 1 合計コスト $3.478 応答時間（平均） 5.18s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
合計テスト数 3 誤答テスト数 1 合計コスト $1.533 応答時間（平均） 9.14s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
合計テスト数 3 誤答テスト数 1 合計コスト $0.951 応答時間（平均） 5.80s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
合計テスト数 3 誤答テスト数 1 合計コスト $0.922 応答時間（平均） 2.98s
#27	Muse Spark 1.1 low	Meta	8.3	8.3	$0.647	2/3	6.60s
合計テスト数 3 誤答テスト数 1 合計コスト $0.647 応答時間（平均） 6.60s

パズル解決ランキング

モデルを絞り込む

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル

パズル解決 ランキング

モデルを絞り込む

パズル解決 スコア 上位モデル

パズル解決 スコア vs 合計コスト

応答時間（平均） 上位モデル

パズル解決ランキング

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル