AI BENCHY 分类失败
谜题求解:未遵循指令
谜题求解
未遵循指令
看看哪些 AI 模型在 谜题求解 上最容易遇到 未遵循指令,更快找出薄弱点。 排序方式: 失败次数 ↑.
| 排名 | 模型 | 公司 | 未遵循指令 次数 | 分类得分 | 测试正确 | 响应时间(平均) |
|---|---|---|---|---|---|---|
| #12 | Gemini 3.1 Flash Lite Preview high | 1 | 7.7 | 2/3 | 46.7s | |
| #15 | GPT-5.3-Codex medium | OpenAI | 1 | 9.0 | 2/3 | 5.05s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 9.0 | 2/3 | 10.2s |
| #21 | GPT-5.4 medium | OpenAI | 1 | 8.2 | 2/3 | 9.14s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.7 | 2/3 | 5.23s |
| #30 | Qwen3.5-27B medium | Qwen | 1 | 8.2 | 2/3 | 59.6s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 1 | 8.2 | 2/3 | 26.1s |
| #33 | Hy3 preview medium | Tencent | 1 | 7.7 | 2/3 | 11.1s |
| #38 | Grok 4.3 medium | X AI | 1 | 5.9 | 1/3 | 22.5s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 8.2 | 2/3 | 6.29s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 2/3 | 5.80s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 6.7 | 1/3 | 5.31s |
| #45 | GPT-5.4 Mini medium | OpenAI | 1 | 7.8 | 2/3 | 4.37s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 6.4 | 1/3 | 5.08s |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 5.6 | 1/3 | 15.2s |