AI BENCHY
Advertise here

AI BENCHY 失败分析

未遵循指令 失败

看看哪些 AI 模型最常遇到 未遵循指令,让你在选择前先发现稳定性风险。 排序方式: 分数 ↑.

显示的模型数

15

失败总数

215

受影响最多的模型

Granite 4.1 8B 4
排名 模型 公司 未遵循指令 次数 分数 测试正确 响应时间(平均)
#115 Qwen3.5-27B none Qwen 2 5.7 7/21 1.68s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 2 5.7 7/21 4.39s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s
#109 GLM 5V Turbo none Z.ai 2 5.8 8/21 2.99s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#105 Nemotron 3 Super medium NVIDIA 3 5.8 8/21 32.0s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#100 Grok Build 0.1 none X AI 2 6.0 7/19 28.7s
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#96 Ring-2.6-1T none Inclusionai 2 6.2 9/21 55.1s
#94 GPT-5 Nano medium OpenAI 2 6.3 9/21 42.5s

按 未遵循指令 次数 排名的顶级模型

未遵循指令 次数 对比 分数

按 响应时间(平均) 排名的顶级模型