指令遵循 x 额外格式排名

AI BENCHY 分类失败

看看哪些 AI 模型在指令遵循上最容易遇到额外格式，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

失败原因

答案错误54 未遵循指令12 无答案2 额外格式2 API 错误1

分类

反AI技巧18 领域专项13 编程11 数据解析与提取4 谜题求解4 指令遵循2 综合1

2/2

排名	模型	公司	额外格式次数	分类得分	总成本	测试正确	响应时间（平均）
#117	DeepSeek V4 Flash none	DeepSeek	1	6.5	$0.007	1/2	17.5s
总测试数 2 错误测试数 1 总成本 $0.007 响应时间（平均） 17.5s
#158	Hy3 preview none	Tencent	1	6.3	$0.003	1/2	13.0s
总测试数 2 错误测试数 1 总成本 $0.003 响应时间（平均） 13.0s

筛选模型