AI BENCHY カテゴリ別失敗
コーディング: 不正解
コーディング
不正解
コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。
| 順位 | モデル | 企業 | 不正解 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #110 | MiMo-V2-Pro none | Xiaomi | 1 | 6.8 | 1/2 | 2.65s |
| #114 | GPT-5.4 none | OpenAI | 1 | 6.8 | 1/2 | 1.99s |
| #115 | MiMo-V2.5-Pro none | Xiaomi | 1 | 5.0 | 0/2 | 1.80s |
| #117 | Qwen3.6 Flash none | Qwen | 1 | 6.6 | 1/2 | 2.34s |
| #118 | MiniMax M2.5 medium | Minimax | 1 | 3.5 | 0/2 | 125.8s |
| #119 | gpt-oss-120b none | OpenAI | 1 | 4.3 | 0/1 | 9.57s |
| #120 | Grok 4.20 none | X AI | 1 | 3.4 | 0/1 | 1.22s |
| #122 | Elephant Alpha medium | Openrouter | 1 | 4.0 | 0/2 | 1.30s |
| #124 | Laguna M.1 none | Poolside | 1 | 7.5 | 0/1 | 2.93s |
| #126 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 3.3 | 0/1 | 38.1s |
| #128 | Kimi K2.5 none | Moonshot AI | 1 | 6.8 | 1/2 | 36.0s |
| #129 | Laguna Xs.2 none | Poolside | 1 | 2.5 | 0/1 | 1.96s |
| #131 | Elephant Alpha none | Openrouter | 1 | 4.7 | 0/2 | 1.39s |
| #136 | MiMo-V2.5 none | Xiaomi | 1 | 6.8 | 1/2 | 3.74s |
| #137 | GPT-5.4 Mini none | OpenAI | 1 | 6.8 | 1/2 | 1.01s |