コーディング x 不正解ランキング

AI BENCHY カテゴリ別失敗

コーディングで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↓.

表示モデル数

総失敗数

230

最も影響を受けたモデル

North Mini Code 3

失敗理由

不正解230 API エラー43 タイムアウト25 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

ドメイン特化368 反AIトリック270 コーディング230 パズル解決173 雑学150 複合58 指示追従56 汎用知能49 データ解析と抽出36 ツール呼び出し3

134/134

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#124	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 320.4s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.042 応答時間（平均） 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.044 応答時間（平均） 220.5s
#76	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
合計テスト数 3 誤答テスト数 3 合計コスト $1.148 応答時間（平均） 206.2s
#166	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.303 応答時間（平均） 188.6s
#87	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.683 応答時間（平均） 183.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.310 応答時間（平均） 180.7s
#35	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.536 応答時間（平均） 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
合計テスト数 3 誤答テスト数 1 合計コスト $0.175 応答時間（平均） 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
合計テスト数 3 誤答テスト数 1 合計コスト $1.696 応答時間（平均） 155.7s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.294 応答時間（平均） 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
合計テスト数 3 誤答テスト数 1 合計コスト $0.960 応答時間（平均） 146.5s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.317 応答時間（平均） 125.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.588 応答時間（平均） 114.5s
#66	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
合計テスト数 3 誤答テスト数 2 合計コスト $0.609 応答時間（平均） 109.9s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル