反AI技巧 x 答案错误排名

看看哪些 AI 模型在反AI技巧上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

293

受影响最多的模型

Seed-2.0-Lite 4

失败原因

答案错误293 未遵循指令33 额外格式20 API 错误14 无答案4 超时4

分类

领域专项412 反AI技巧293 编程252 谜题求解201 常识问答168 综合68 指令遵循61 通用智能59 数据解析与提取41 工具调用3

140/140

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
总测试数 4 错误测试数 3 总成本 $0.349 响应时间（平均） 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
总测试数 4 错误测试数 3 总成本 $0.184 响应时间（平均） 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
总测试数 4 错误测试数 3 总成本 $0.041 响应时间（平均） 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
总测试数 4 错误测试数 3 总成本 $0.247 响应时间（平均） 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
总测试数 4 错误测试数 3 总成本 $0.052 响应时间（平均） 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
总测试数 4 错误测试数 3 总成本 $0.000 响应时间（平均） 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
总测试数 4 错误测试数 4 总成本 $0.000 响应时间（平均） 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
总测试数 4 错误测试数 4 总成本 $0.068 响应时间（平均） 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
总测试数 4 错误测试数 4 总成本 $0.021 响应时间（平均） 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
总测试数 4 错误测试数 3 总成本 $0.142 响应时间（平均） 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
总测试数 4 错误测试数 3 总成本 $0.147 响应时间（平均） 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
总测试数 4 错误测试数 3 总成本 $0.096 响应时间（平均） 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
总测试数 4 错误测试数 3 总成本 $0.010 响应时间（平均） 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
总测试数 4 错误测试数 3 总成本 $0.016 响应时间（平均） 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
总测试数 4 错误测试数 3 总成本 $0.008 响应时间（平均） 4.46s

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

反AI技巧：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型