综合 x 额外格式排名

AI BENCHY 分类失败

看看哪些 AI 模型在综合上最容易遇到额外格式，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

失败原因

答案错误53 无效工具调用20 API 错误13 无答案2 超时2 未遵循指令1 额外格式1

分类

反AI技巧18 领域专项13 编程11 数据解析与提取4 谜题求解4 指令遵循2 综合1

1/1

排名	模型	公司	额外格式次数	分类得分	总成本	测试正确	响应时间（平均）
#107	North Mini Code medium	Cohere	1	2.8	$0.000	0/1	323.1s
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 323.1s

筛选模型