AI BENCHY
Your ad here

AI BENCHY 失败分析

未遵循指令 失败

看看哪些 AI 模型最常遇到 未遵循指令,让你在选择前先发现稳定性风险。 排序方式: 响应时间(平均) ↓.

显示的模型数

5

失败总数

180

受影响最多的模型

Qwen3.5-9B 2
排名 模型 公司 未遵循指令 次数 分数 测试正确 响应时间(平均)
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#62 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#91 Mercury 2 none Inception 1 4.8 4/18 613ms

按 未遵循指令 次数 排名的顶级模型

未遵循指令 次数 对比 分数

按 响应时间(平均) 排名的顶级模型