AI BENCHY
Advertise here

AI BENCHY 分类失败

编程:未遵循指令

编程
未遵循指令

看看哪些 AI 模型在 编程 上最容易遇到 未遵循指令,更快找出薄弱点。 排序方式: 失败次数 ↑.

显示的模型数

15

失败总数

16

受影响最多的模型

Gemini 3.5 Flash 1
排名 模型 公司 未遵循指令 次数 分类得分 测试正确 响应时间(平均)
#6 Gemini 3.5 Flash medium Google 1 6.8 1/2 9.91s
#24 Gemini 3.5 Flash minimal Google 1 7.0 1/2 3.39s
#63 Claude Opus 4.6 medium Anthropic 1 7.2 1/2 29.4s
#74 Laguna M.1 medium Poolside 1 4.3 0/1 35.6s
#80 DeepSeek V4 Pro high DeepSeek 1 2.8 0/2 51.8s
#87 Grok 4.1 Fast medium X AI 1 2.3 0/1 23.6s
#96 Nemotron 3 Super medium NVIDIA 1 3.1 0/2 62.4s
#100 Owl Alpha medium Openrouter 1 6.6 1/2 19.1s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#110 Kimi K2.6 none Moonshot AI 1 6.8 1/2 122.8s
#114 DeepSeek V3.2 none DeepSeek 1 3.1 0/2 20.9s
#115 MiMo-V2.5-Pro none Xiaomi 1 5.0 0/2 1.80s
#149 MiMo-V2-Flash none Xiaomi 1 4.9 0/2 2.04s
#151 Qwen3.5-9B medium Qwen 1 2.8 0/2 135.6s

按 未遵循指令 次数 排名的顶级模型

未遵循指令 次数 对比 分数

按 响应时间(平均) 排名的顶级模型

按 预估浪费成本 排名的顶级模型