コーディングモデルランキング

AI BENCHY カテゴリ

コーディングでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均コーディングスコア

5.7

最良モデル

Gemini 3 PRO Preview 3.0

失敗理由

失敗理由不正解で230 失敗理由 API エラーで43 失敗理由タイムアウトで25 失敗理由回答なしで18 失敗理由指示に従っていないで16 失敗理由余分な書式で12

189/189

順位	モデル	企業	コーディングスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.385 応答時間（平均） 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
合計テスト数 0 誤答テスト数 0 合計コスト $2.310 応答時間（平均） 0ms
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 0ms
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.020 応答時間（平均） 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
合計テスト数 0 誤答テスト数 0 合計コスト $0.001 応答時間（平均） 0ms
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 623ms
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.016 応答時間（平均） 736ms
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 775ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.013 応答時間（平均） 831ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.005 応答時間（平均） 850ms
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 901ms
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.038 応答時間（平均） 913ms
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 924ms

コーディングランキング

モデルを絞り込む

コーディングスコア上位モデル

コーディングスコア vs 合計コスト

応答時間（平均）上位モデル

コーディング ランキング

モデルを絞り込む

コーディング スコア 上位モデル

コーディング スコア vs 合計コスト

応答時間（平均） 上位モデル

コーディングランキング

コーディングスコア上位モデル

コーディングスコア vs 合計コスト

応答時間（平均）上位モデル