编程 x 额外格式排名

AI BENCHY 分类失败

看看哪些 AI 模型在编程上最容易遇到额外格式，更快找出薄弱点。排序方式: 响应时间（平均） ↑.

显示的模型数

失败总数

受影响最多的模型

Granite 4.1 8B 1

失败原因

答案错误230 API 错误43 超时23 无答案18 未遵循指令16 额外格式12

分类

反AI技巧20 领域专项13 编程12 谜题求解6 数据解析与提取4 指令遵循3 综合1

12/12

排名	模型	公司	额外格式次数	分类得分	总成本	测试正确	响应时间（平均）
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
总测试数 3 错误测试数 3 总成本 $0.003 响应时间（平均） 775ms
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
总测试数 3 错误测试数 3 总成本 $0.021 响应时间（平均） 2.75s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
总测试数 3 错误测试数 2 总成本 $0.316 响应时间（平均） 5.19s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
总测试数 3 错误测试数 2 总成本 $1.270 响应时间（平均） 7.58s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
总测试数 3 错误测试数 2 总成本 $2.053 响应时间（平均） 30.1s
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
总测试数 3 错误测试数 2 总成本 $1.418 响应时间（平均） 33.3s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 36.9s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
总测试数 3 错误测试数 2 总成本 $0.614 响应时间（平均） 41.2s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
总测试数 3 错误测试数 2 总成本 $0.106 响应时间（平均） 92.1s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
总测试数 3 错误测试数 2 总成本 $0.927 响应时间（平均） 108.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
总测试数 3 错误测试数 3 总成本 $0.288 响应时间（平均） 109.6s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
总测试数 3 错误测试数 2 总成本 $0.131 响应时间（平均） 144.7s

筛选模型

按额外格式次数排名的顶级模型

额外格式次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

编程：额外格式

筛选模型

按 额外格式 次数 排名的顶级模型

额外格式 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按额外格式次数排名的顶级模型

额外格式次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型