AI BENCHY カテゴリ別失敗
コーディング: 不正解
コーディング
不正解
コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。
| 順位 | モデル | 企業 | 不正解 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #52 | Gemini 3.1 Flash Lite Preview none | 1 | 6.8 | 1/2 | 1.06s | |
| #53 | Gemini 3.1 Flash Lite low | 1 | 6.8 | 1/2 | 1.71s | |
| #55 | GPT-5.3 Chat none | OpenAI | 1 | 6.9 | 1/2 | 10.5s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 6.9 | 1/2 | 64.5s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.8 | 1/2 | 54.8s |
| #61 | GPT-5.4 Mini medium | OpenAI | 1 | 7.5 | 1/2 | 73.3s |
| #67 | GPT-5.4 Nano medium | OpenAI | 1 | 6.8 | 1/2 | 21.1s |
| #70 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.1 | 0/2 | 7.20s |
| #71 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 6.8 | 1/2 | 220.5s |
| #73 | DeepSeek V3.2 medium | DeepSeek | 1 | 3.9 | 0/2 | 185.0s |
| #75 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.4 | 0/2 | 183.9s |
| #77 | Gemma 4 31B none | 1 | 6.8 | 1/2 | 14.8s | |
| #78 | Gemini 3.1 Flash Lite minimal | 1 | 6.8 | 1/2 | 951ms | |
| #82 | Laguna Xs.2 medium | Poolside | 1 | 6.3 | 0/1 | 14.4s |
| #85 | Gemini 3.1 Flash Lite none | 1 | 6.8 | 1/2 | 1.13s |