AI BENCHY
Advertise here

AI BENCHY カテゴリ別失敗

コーディング: 不正解

コーディング
不正解

コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。 並び替え: 正解テスト ↑.

表示モデル数

15

総失敗数

119

最も影響を受けたモデル

Qwen3.6 Plus 1
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#35 Qwen3.6 Plus medium Qwen 1 4.1 0/2 201.7s
#40 Qwen3.5-122B-A10B medium Qwen 1 4.1 0/2 119.6s
#43 Qwen3.6 Flash medium Qwen 2 5.1 0/2 51.9s
#47 Qwen3.5-Flash medium Qwen 1 4.1 0/2 54.2s
#69 Qwen3.6 Max Preview none Qwen 2 4.2 0/2 3.06s
#70 MiMo-V2-Flash medium Xiaomi 1 4.1 0/2 7.20s
#73 DeepSeek V3.2 medium DeepSeek 1 3.9 0/2 185.0s
#74 Grok 4.20 medium X AI 2 4.1 0/2 65.1s
#75 MiMo-V2-Omni medium Xiaomi 1 3.4 0/2 183.9s
#82 Laguna Xs.2 medium Poolside 1 6.3 0/1 14.4s
#89 Qwen3.5 Plus 2026-02-15 none Qwen 2 4.9 0/2 2.54s
#91 GLM 5 none Z.ai 2 4.6 0/2 5.18s
#92 Gemma 4 26B A4B none Google 1 4.1 0/2 3.83s
#93 MiMo-V2-Omni none Xiaomi 1 5.1 0/2 2.75s
#94 GPT-5 Nano medium OpenAI 2 5.4 0/2 47.8s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル