综合 x 未遵循指令排名 | AI BENCHY

AI BENCHY 分类失败

看看哪些 AI 模型在综合上最容易遇到未遵循指令，更快找出薄弱点。

显示的模型数

1

失败总数

1

受影响最多的模型

MiMo-V2.5-Pro 1

失败原因

答案错误53 无效工具调用20 API 错误13 无答案2 超时2 未遵循指令1 额外格式1

分类

谜题求解82 通用智能72 反AI技巧30 编程16 指令遵循12 工具调用6 综合1 领域专项1

1/1

排名	模型	公司	未遵循指令次数	分类得分	总成本	测试正确	响应时间（平均）
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	3.54s
总测试数 1 错误测试数 1 总成本 $0.017 响应时间（平均） 3.54s

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型