编程 x 未遵循指令排名 | AI BENCHY

AI BENCHY 分类失败

看看哪些 AI 模型在编程上最容易遇到未遵循指令，更快找出薄弱点。排序方式: 失败次数 ↑.

显示的模型数

15

失败总数

16

受影响最多的模型

Gemini 3.5 Flash 1

失败原因

答案错误120 无答案18 未遵循指令16 超时12 额外格式7 API 错误6

分类

谜题求解84 通用智能74 反AI技巧29 编程16 指令遵循14 工具调用6 综合1 领域专项1

排名	模型	公司	未遵循指令次数	分类得分	测试正确	响应时间（平均）
#6	Gemini 3.5 Flash medium	Google	1	6.8	1/2	9.91s
#24	Gemini 3.5 Flash minimal	Google	1	7.0	1/2	3.39s
#63	Claude Opus 4.6 medium	Anthropic	1	7.2	1/2	29.4s
#74	Laguna M.1 medium	Poolside	1	4.3	0/1	35.6s
#80	DeepSeek V4 Pro high	DeepSeek	1	2.8	0/2	51.8s
#87	Grok 4.1 Fast medium	X AI	1	2.3	0/1	23.6s
#96	Nemotron 3 Super medium	NVIDIA	1	3.1	0/2	62.4s
#100	Owl Alpha medium	Openrouter	1	6.6	1/2	19.1s
#101	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.4	0/2	2.08s
#105	Cobuddy medium	Baidu	1	4.1	0/2	79.2s
#110	Kimi K2.6 none	Moonshot AI	1	6.8	1/2	122.8s
#114	DeepSeek V3.2 none	DeepSeek	1	3.1	0/2	20.9s
#115	MiMo-V2.5-Pro none	Xiaomi	1	5.0	0/2	1.80s
#149	MiMo-V2-Flash none	Xiaomi	1	4.9	0/2	2.04s
#151	Qwen3.5-9B medium	Qwen	1	2.8	0/2	135.6s

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型