AI BENCHY 失败分析
未遵循指令 失败
看看哪些 AI 模型最常遇到 未遵循指令,让你在选择前先发现稳定性风险。 排序方式: 响应时间(平均) ↓.
| 排名 | 模型 | 公司 | 未遵循指令 次数 | 分数 | 测试正确 | 响应时间(平均) |
|---|---|---|---|---|---|---|
| #73 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.4 | 11/18 | 4.98s |
| #72 | Hunter Alpha none | OpenRouter | 2 | 5.7 | 6/18 | 4.58s |
| #75 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #48 | Gemma 4 31B none | 1 | 6.9 | 10/18 | 4.02s | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 2 | 6.1 | 7/18 | 3.82s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 1 | 8.2 | 13/18 | 3.74s | |
| #70 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.7 | 6/18 | 3.69s |
| #74 | GLM 4.7 Flash none | Z.ai | 2 | 5.6 | 5/18 | 3.35s |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 6.2 | 8/18 | 3.25s |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 8.1 | 13/18 | 3.22s | |
| #58 | GLM 5V Turbo none | Z.ai | 2 | 6.2 | 8/18 | 3.10s |
| #77 | GLM 5 Turbo none | Z.ai | 2 | 5.5 | 6/18 | 2.94s |
| #94 | MiMo-V2-Flash none | Xiaomi | 1 | 4.5 | 3/18 | 2.79s |