コーディングモデルランキング

AI BENCHY カテゴリ

コーディングでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均コーディングスコア

5.7

最良モデル

Gemini 3.1 Flash Lite Preview 0.0

失敗理由

失敗理由不正解で230 失敗理由 API エラーで43 失敗理由タイムアウトで25 失敗理由回答なしで18 失敗理由指示に従っていないで16 失敗理由余分な書式で12

189/189

順位	モデル	企業	コーディングスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.061 応答時間（平均） 97.1s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.317 応答時間（平均） 125.3s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.106 応答時間（平均） 92.1s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
合計テスト数 3 誤答テスト数 2 合計コスト $0.609 応答時間（平均） 109.9s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.554 応答時間（平均） 73.0s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.310 応答時間（平均） 180.7s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
合計テスト数 3 誤答テスト数 2 合計コスト $1.270 応答時間（平均） 7.58s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
合計テスト数 3 誤答テスト数 2 合計コスト $0.343 応答時間（平均） 9.56s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.081 応答時間（平均） 41.6s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
合計テスト数 3 誤答テスト数 1 合計コスト $0.679 応答時間（平均） 13.0s
#26	Grok 4.5 medium	X AI	7.6	8.3	$1.696	2/3	155.7s
合計テスト数 3 誤答テスト数 1 合計コスト $1.696 応答時間（平均） 155.7s
#29	GPT-5.6 Terra high	OpenAI	7.6	8.2	$0.852	2/3	9.14s
合計テスト数 3 誤答テスト数 1 合計コスト $0.852 応答時間（平均） 9.14s
#79	Kimi K2.7 Code medium	Moonshot AI	7.6	7.0	$0.581	2/3	146.7s
合計テスト数 3 誤答テスト数 1 合計コスト $0.581 応答時間（平均） 146.7s
#89	Qwen3.6 35B A3B medium	Qwen	7.7	6.7	$0.146	2/3	50.5s
合計テスト数 3 誤答テスト数 1 合計コスト $0.146 応答時間（平均） 50.5s
#95	Qwen3.6 27B medium	Qwen	7.7	6.6	$0.336	2/3	143.0s
合計テスト数 3 誤答テスト数 1 合計コスト $0.336 応答時間（平均） 143.0s

←

1 9 10 11 13

→

コーディングランキング

モデルを絞り込む

コーディングスコア上位モデル

コーディングスコア vs 合計コスト

応答時間（平均）上位モデル

コーディング ランキング

モデルを絞り込む

コーディング スコア 上位モデル

コーディング スコア vs 合計コスト

応答時間（平均） 上位モデル

コーディングランキング

コーディングスコア上位モデル

コーディングスコア vs 合計コスト

応答時間（平均）上位モデル