パズル解決モデルランキング

パズル解決でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均パズル解決スコア

6.7

最良モデル

Step 3.5 Flash 0.0

失敗理由

失敗理由不正解で201 失敗理由指示に従っていないで90 失敗理由 API エラーで12 失敗理由余分な書式で8 失敗理由タイムアウトで5 失敗理由回答なしで3

210/210

順位	モデル	企業	パズル解決スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#158	KAT-Coder-Air V2.5 low	Kwaipilot	3.1	5.4	$0.041	0/3	1.57s
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 1.57s
#91	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
合計テスト数 3 誤答テスト数 3 合計コスト $0.391 応答時間（平均） 8.15s
#125	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.073 応答時間（平均） 10.9s
#162	Ling-2.6-1T none	Inclusionai	3.1	5.3	$0.016	0/3	5.36s
合計テスト数 3 誤答テスト数 3 合計コスト $0.016 応答時間（平均） 5.36s
#189	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.030 応答時間（平均） 535ms
#199	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 4.56s
#138	Kimi K2.6 none	Moonshot AI	3.1	5.8	$0.184	0/3	1.40s
合計テスト数 3 誤答テスト数 3 合計コスト $0.184 応答時間（平均） 1.40s
#165	Mistral Small 4 none	Mistral	3.1	5.1	$0.022	0/3	399ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.022 応答時間（平均） 399ms
#97	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
合計テスト数 3 誤答テスト数 3 合計コスト $0.469 応答時間（平均） 9.18s
#169	Qwen3.5-9B none	Qwen	3.2	5.1	$0.021	0/3	621ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.021 応答時間（平均） 621ms
#201	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 608ms
#161	Qwen3.6 35B A3B none	Qwen	3.2	5.3	$0.061	0/3	1.07s
合計テスト数 3 誤答テスト数 3 合計コスト $0.061 応答時間（平均） 1.07s
#137	North Mini Code medium	Cohere	3.3	5.9	$0.000	0/3	19.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 19.7s
#167	Mistral Small 4 medium	Mistral	3.4	5.1	$0.096	0/3	2.17s
合計テスト数 3 誤答テスト数 3 合計コスト $0.096 応答時間（平均） 2.17s
#124	Qwen3.6 Flash none	Qwen	3.5	6.1	$0.062	0/3	1.21s
合計テスト数 3 誤答テスト数 3 合計コスト $0.062 応答時間（平均） 1.21s

パズル解決ランキング

モデルを絞り込む

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル

パズル解決 ランキング

モデルを絞り込む

パズル解決 スコア 上位モデル

パズル解決 スコア vs 合計コスト

応答時間（平均） 上位モデル

パズル解決ランキング

パズル解決スコア上位モデル

パズル解決スコア vs 合計コスト

応答時間（平均）上位モデル