谜题求解 x 额外格式排名 | AI BENCHY

看看哪些 AI 模型在谜题求解上最容易遇到额外格式，更快找出薄弱点。

显示的模型数

8

失败总数

8

受影响最多的模型

Claude Sonnet 4.6 1

失败原因

答案错误201 未遵循指令90 API 错误12 额外格式8 超时5 无答案3

分类

反AI技巧20 编程18 领域专项17 谜题求解8 数据解析与提取6 指令遵循3 综合1

8/8

排名	模型	公司	额外格式次数	分类得分	总成本	测试正确	响应时间（平均）
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	2.53s
总测试数 3 错误测试数 1 总成本 $0.661 响应时间（平均） 2.53s
#66	Claude Opus 4.8 none	Anthropic	1	7.7	$1.166	2/3	2.74s
总测试数 3 错误测试数 1 总成本 $1.166 响应时间（平均） 2.74s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
总测试数 3 错误测试数 2 总成本 $0.333 响应时间（平均） 5.08s
#111	LongCat 2.0 none	Meituan	1	4.0	$0.044	0/3	2.74s
总测试数 3 错误测试数 3 总成本 $0.044 响应时间（平均） 2.74s
#112	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
总测试数 3 错误测试数 2 总成本 $0.548 响应时间（平均） 3.22s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
总测试数 3 错误测试数 3 总成本 $0.044 响应时间（平均） 23.7s
#159	GPT-5.6 Luna none	OpenAI	1	5.3	$0.142	1/3	790ms
总测试数 3 错误测试数 2 总成本 $0.142 响应时间（平均） 790ms
#164	Inkling none	Thinkingmachines	1	5.6	$0.147	1/3	931ms
总测试数 3 错误测试数 2 总成本 $0.147 响应时间（平均） 931ms

按额外格式次数排名的顶级模型

额外格式次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型