反AI技巧 x 答案错误排名

看看哪些 AI 模型在反AI技巧上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

293

受影响最多的模型

Seed-2.0-Lite 4

失败原因

答案错误293 未遵循指令33 额外格式20 API 错误14 无答案4 超时4

分类

领域专项412 反AI技巧293 编程252 谜题求解201 常识问答168 综合68 指令遵循61 通用智能59 数据解析与提取41 工具调用3

140/140

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
总测试数 4 错误测试数 4 总成本 $0.022 响应时间（平均） 395ms
#168	MiMo-V2.5 none	Xiaomi	4	3.5	$0.025	0/4	2.19s
总测试数 4 错误测试数 4 总成本 $0.025 响应时间（平均） 2.19s
#169	Qwen3.5-9B none	Qwen	4	3.1	$0.021	0/4	1.71s
总测试数 4 错误测试数 4 总成本 $0.021 响应时间（平均） 1.71s
#170	GLM 5 Turbo none	Z.ai	4	3.0	$0.047	0/4	2.84s
总测试数 4 错误测试数 4 总成本 $0.047 响应时间（平均） 2.84s
#180	GPT-5.4 Nano none	OpenAI	4	3.5	$0.041	0/4	1.18s
总测试数 4 错误测试数 4 总成本 $0.041 响应时间（平均） 1.18s
#183	Trinity Large Preview none	Arcee AI	4	3.1	$0.008	0/4	2.07s
总测试数 4 错误测试数 4 总成本 $0.008 响应时间（平均） 2.07s
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
总测试数 4 错误测试数 4 总成本 $0.030 响应时间（平均） 483ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
总测试数 4 错误测试数 4 总成本 $0.087 响应时间（平均） 597ms
#196	Hunter Alpha none	OpenRouter	4	3.5	$0.000	0/4	3.81s
总测试数 4 错误测试数 4 总成本 $0.000 响应时间（平均） 3.81s
#200	MiMo-V2-Flash none	Xiaomi	4	3.2	$0.025	0/4	1.19s
总测试数 4 错误测试数 4 总成本 $0.025 响应时间（平均） 1.19s
#98	Qwen3.6 Max Preview none	Qwen	3	5.2	$0.231	1/4	2.63s
总测试数 4 错误测试数 3 总成本 $0.231 响应时间（平均） 2.63s
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
总测试数 4 错误测试数 3 总成本 $0.090 响应时间（平均） 788ms
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.8	$0.073	1/4	1.91s
总测试数 4 错误测试数 3 总成本 $0.073 响应时间（平均） 1.91s
#111	LongCat 2.0 none	Meituan	3	4.8	$0.044	1/4	2.87s
总测试数 4 错误测试数 3 总成本 $0.044 响应时间（平均） 2.87s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	3	4.8	$0.122	1/4	1.88s
总测试数 4 错误测试数 3 总成本 $0.122 响应时间（平均） 1.88s

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

反AI技巧：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型