AI BENCHY 失敗分析
指示に従っていない の失敗
どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。
| 順位 | モデル | 企業 | 指示に従っていない 件数 | スコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #125 | MiniMax M2.7 medium | Minimax | 5 | 5.1 | 4/19 | 30.6s |
| #62 | GPT-5.4 Mini medium | OpenAI | 4 | 7.2 | 10/19 | 16.0s |
| #69 | GPT-5 Mini medium | OpenAI | 4 | 6.8 | 9/19 | 23.2s |
| #79 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 24.0s |
| #101 | gpt-oss-120b medium | OpenAI | 4 | 5.7 | 7/19 | 16.9s |
| #135 | Hy3 preview none | Tencent | 4 | 4.6 | 4/19 | 13.0s |
| #144 | Granite 4.1 8B none | IBM Granite | 4 | 4.1 | 2/19 | 743ms |
| #43 | Step 3.5 Flash medium | Stepfun | 3 | 7.6 | 11/18 | 41.7s |
| #51 | Gemini 3.1 Flash Lite high | 3 | 7.5 | 11/18 | 62.0s | |
| #60 | GPT-5.2 medium | OpenAI | 3 | 7.2 | 11/19 | 15.2s |
| #70 | Gemini 3.1 Flash Lite minimal | 3 | 6.8 | 10/19 | 1.41s | |
| #82 | Mercury 2 medium | Inception | 3 | 6.3 | 8/19 | 2.23s |
| #87 | Nemotron 3 Super medium | NVIDIA | 3 | 6.1 | 8/19 | 18.7s |
| #97 | Cobuddy medium | Baidu | 3 | 5.8 | 7/19 | 36.5s |
| #98 | Owl Alpha none | Openrouter | 3 | 5.8 | 7/19 | 6.83s |