AI BENCHY
Advertise here

AI BENCHY カテゴリ別失敗

コーディング: 不正解

コーディング
不正解

コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

15

総失敗数

119

最も影響を受けたモデル

Qwen3.6 Flash 2
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#43 Qwen3.6 Flash medium Qwen 2 5.1 0/2 51.9s
#69 Qwen3.6 Max Preview none Qwen 2 4.2 0/2 3.06s
#74 Grok 4.20 medium X AI 2 4.1 0/2 65.1s
#89 Qwen3.5 Plus 2026-02-15 none Qwen 2 4.9 0/2 2.54s
#91 GLM 5 none Z.ai 2 4.6 0/2 5.18s
#94 GPT-5 Nano medium OpenAI 2 5.4 0/2 47.8s
#95 DeepSeek V4 Pro none DeepSeek 2 5.4 0/2 8.27s
#97 gpt-oss-120b medium OpenAI 2 3.9 0/2 47.2s
#102 GLM 5.1 none Z.ai 2 4.3 0/2 6.33s
#113 GLM 4.7 Flash none Z.ai 2 5.0 0/2 3.35s
#121 Mistral Small 4 medium Mistral 2 5.1 0/2 44.8s
#125 Qwen3.5-122B-A10B none Qwen 2 4.0 0/2 2.14s
#127 GLM 5 Turbo none Z.ai 2 4.4 0/2 2.58s
#132 DeepSeek V4 Flash none DeepSeek 2 4.8 0/2 24.5s
#133 Qwen3 Coder Next none Qwen 2 5.4 0/2 2.01s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル