反AI技巧 x 额外格式排名

看看哪些 AI 模型在反AI技巧上最容易遇到额外格式，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

Claude Opus 4.6 2

失败原因

答案错误293 未遵循指令33 额外格式20 API 错误14 无答案4 超时4

分类

反AI技巧20 编程18 领域专项17 谜题求解8 数据解析与提取6 指令遵循3 综合1

14/14

排名	模型	公司	额外格式次数	分类得分	总成本	测试正确	响应时间（平均）
#43	Claude Opus 4.6 medium	Anthropic	2	6.4	$3.059	2/4	7.45s
总测试数 4 错误测试数 2 总成本 $3.059 响应时间（平均） 7.45s
#63	Claude Sonnet 4.6 none	Anthropic	2	4.8	$0.661	1/4	2.94s
总测试数 4 错误测试数 3 总成本 $0.661 响应时间（平均） 2.94s
#66	Claude Opus 4.8 none	Anthropic	2	6.5	$1.166	2/4	3.40s
总测试数 4 错误测试数 2 总成本 $1.166 响应时间（平均） 3.40s
#112	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/4	3.60s
总测试数 4 错误测试数 3 总成本 $0.548 响应时间（平均） 3.60s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
总测试数 4 错误测试数 4 总成本 $0.000 响应时间（平均） 22.5s
#173	DeepSeek V3.2 none	DeepSeek	2	3.2	$0.054	0/4	9.35s
总测试数 4 错误测试数 4 总成本 $0.054 响应时间（平均） 9.35s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
总测试数 4 错误测试数 2 总成本 $2.057 响应时间（平均） 2.98s
#48	Grok Build 0.1 medium	X AI	1	8.3	$1.097	3/4	7.43s
总测试数 4 错误测试数 1 总成本 $1.097 响应时间（平均） 7.43s
#58	Qwen3.5-27B medium	Qwen	1	8.7	$1.627	3/4	19.8s
总测试数 4 错误测试数 1 总成本 $1.627 响应时间（平均） 19.8s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
总测试数 4 错误测试数 4 总成本 $0.096 响应时间（平均） 4.02s
#113	MiMo-V2-Flash medium	Xiaomi	1	8.1	$0.043	3/4	15.8s
总测试数 4 错误测试数 1 总成本 $0.043 响应时间（平均） 15.8s
#137	North Mini Code medium	Cohere	1	8.4	$0.000	3/4	64.8s
总测试数 4 错误测试数 1 总成本 $0.000 响应时间（平均） 64.8s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
总测试数 4 错误测试数 4 总成本 $0.025 响应时间（平均） 3.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.9	$5.599	2/4	3.46s
总测试数 4 错误测试数 2 总成本 $5.599 响应时间（平均） 3.46s

筛选模型

按额外格式次数排名的顶级模型

额外格式次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

反AI技巧：额外格式

筛选模型

按 额外格式 次数 排名的顶级模型

额外格式 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按额外格式次数排名的顶级模型

额外格式次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型