AI BENCHY カテゴリ別失敗
コーディング: 不正解
コーディング
不正解
コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。 並び替え: 正解テスト ↑.
| 順位 | モデル | 企業 | 不正解 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #35 | Qwen3.6 Plus medium | Qwen | 1 | 4.1 | 0/2 | 201.7s |
| #40 | Qwen3.5-122B-A10B medium | Qwen | 1 | 4.1 | 0/2 | 119.6s |
| #43 | Qwen3.6 Flash medium | Qwen | 2 | 5.1 | 0/2 | 51.9s |
| #47 | Qwen3.5-Flash medium | Qwen | 1 | 4.1 | 0/2 | 54.2s |
| #69 | Qwen3.6 Max Preview none | Qwen | 2 | 4.2 | 0/2 | 3.06s |
| #70 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.1 | 0/2 | 7.20s |
| #73 | DeepSeek V3.2 medium | DeepSeek | 1 | 3.9 | 0/2 | 185.0s |
| #74 | Grok 4.20 medium | X AI | 2 | 4.1 | 0/2 | 65.1s |
| #75 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.4 | 0/2 | 183.9s |
| #82 | Laguna Xs.2 medium | Poolside | 1 | 6.3 | 0/1 | 14.4s |
| #89 | Qwen3.5 Plus 2026-02-15 none | Qwen | 2 | 4.9 | 0/2 | 2.54s |
| #91 | GLM 5 none | Z.ai | 2 | 4.6 | 0/2 | 5.18s |
| #92 | Gemma 4 26B A4B none | 1 | 4.1 | 0/2 | 3.83s | |
| #93 | MiMo-V2-Omni none | Xiaomi | 1 | 5.1 | 0/2 | 2.75s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 5.4 | 0/2 | 47.8s |