パズル解決モデルランキング

パズル解決でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均パズル解決スコア

6.7

最良モデル

Step 3.5 Flash 0.0

失敗理由

失敗理由不正解で214 失敗理由指示に従っていないで90 失敗理由 API エラーで12 失敗理由余分な書式で10 失敗理由タイムアウトで5 失敗理由回答なしで3

220/220

順位	モデル	企業	パズル解決スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#157	GLM 5.1 none	Z.ai	7.7	5.5	$0.164	2/3	1.45s
合計テスト数 3 誤答テスト数 1 合計コスト $0.164 応答時間（平均） 1.45s
#87	GPT-5.6 Sol none	OpenAI	7.7	6.9	$0.524	2/3	1.49s
合計テスト数 3 誤答テスト数 1 合計コスト $0.524 応答時間（平均） 1.49s
#165	KAT-Coder-Air V2.5 low	Kwaipilot	3.1	5.4	$0.041	0/3	1.57s
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 1.57s
#153	Mimo V2 PRO none	Xiaomi	6.0	5.6	$0.045	1/3	1.61s
合計テスト数 3 誤答テスト数 2 合計コスト $0.045 応答時間（平均） 1.61s
#167	Laguna S 2.1 high	Poolside	2.9	5.4	$0.127	0/3	1.62s
合計テスト数 3 誤答テスト数 3 合計コスト $0.127 応答時間（平均） 1.62s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	3/3	1.69s
合計テスト数 3 誤答テスト数 0 合計コスト $0.646 応答時間（平均） 1.69s
#104	Gemini 3.5 Flash-Lite medium	Google	8.4	6.5	$0.369	2/3	1.70s
合計テスト数 3 誤答テスト数 1 合計コスト $0.369 応答時間（平均） 1.70s
#75	Qwen3.7 Plus none	Qwen	7.7	7.2	$0.106	2/3	1.71s
合計テスト数 3 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 1.71s
#220	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
合計テスト数 3 誤答テスト数 3 合計コスト $0.001 応答時間（平均） 1.78s
#71	Step 3.7 Flash low	Stepfun	5.5	7.3	$0.454	1/3	1.84s
合計テスト数 3 誤答テスト数 2 合計コスト $0.454 応答時間（平均） 1.84s
#191	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	1.84s
合計テスト数 3 誤答テスト数 3 合計コスト $0.067 応答時間（平均） 1.84s
#31	Gemini 3.5 Flash-Lite high	Google	8.2	8.1	$0.584	2/3	1.85s
合計テスト数 3 誤答テスト数 1 合計コスト $0.584 応答時間（平均） 1.85s
#210	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	1.86s
合計テスト数 3 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 1.86s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
合計テスト数 3 誤答テスト数 3 合計コスト $0.048 応答時間（平均） 1.87s
#147	GLM 5 none	Z.ai	7.7	5.7	$0.041	2/3	1.91s
合計テスト数 3 誤答テスト数 1 合計コスト $0.041 応答時間（平均） 1.91s

パズル解決ランキング

モデルを絞り込む

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル

パズル解決 ランキング

モデルを絞り込む

パズル解決 スコア 上位モデル

パズル解決 スコア vs 合計コスト

応答時間（平均） 上位モデル

パズル解決ランキング

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル