コーディングモデルランキング

AI BENCHY カテゴリ

コーディングでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

平均コーディングスコア

5.7

最良モデル

Qwen3.6 Flash 5.0

失敗理由

失敗理由不正解で230 失敗理由 API エラーで43 失敗理由タイムアウトで25 失敗理由回答なしで18 失敗理由指示に従っていないで16 失敗理由余分な書式で12

189/189

順位	モデル	企業	コーディングスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 924ms
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
合計テスト数 1 誤答テスト数 1 合計コスト $0.087 応答時間（平均） 1.14s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
合計テスト数 1 誤答テスト数 1 合計コスト $0.009 応答時間（平均） 2.93s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
合計テスト数 3 誤答テスト数 3 合計コスト $0.011 応答時間（平均） 1.03s
#172	Elephant Alpha none	Openrouter	4.2	4.6	$0.000	0/3	1.39s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 1.39s
#173	Elephant Alpha medium	Openrouter	3.7	4.5	$0.000	0/3	1.30s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 1.30s
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 0ms
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
合計テスト数 1 誤答テスト数 1 合計コスト $0.057 応答時間（平均） 1.22s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
合計テスト数 1 誤答テスト数 1 合計コスト $0.015 応答時間（平均） 14.4s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.054 応答時間（平均） 55.3s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 4.56s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
合計テスト数 3 誤答テスト数 3 合計コスト $0.025 応答時間（平均） 2.64s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 1.79s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
合計テスト数 1 誤答テスト数 1 合計コスト $0.004 応答時間（平均） 1.96s
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 775ms

コーディングランキング

モデルを絞り込む

コーディングスコア上位モデル

コーディングスコア vs 合計コスト

応答時間（平均）上位モデル

コーディング ランキング

モデルを絞り込む

コーディング スコア 上位モデル

コーディング スコア vs 合計コスト

応答時間（平均） 上位モデル

コーディングランキング

コーディングスコア上位モデル

コーディングスコア vs 合計コスト

応答時間（平均）上位モデル