指令遵循 x 未遵循指令排名

看看哪些 AI 模型在指令遵循上最容易遇到未遵循指令，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

失败原因

答案错误61 未遵循指令18 额外格式3 无答案2 API 错误1 超时1

分类

谜题求解90 通用智能78 反AI技巧33 指令遵循18 编程16 工具调用8 综合1 领域专项1

18/18

排名	模型	公司	未遵循指令次数	分类得分	总成本	测试正确	响应时间（平均）
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
总测试数 2 错误测试数 2 总成本 $0.008 响应时间（平均） 685ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
总测试数 2 错误测试数 1 总成本 $0.000 响应时间（平均） 1.37s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
总测试数 2 错误测试数 2 总成本 $0.000 响应时间（平均） 541ms

筛选模型