反AI技巧 x 答案错误排名

看看哪些 AI 模型在反AI技巧上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

293

受影响最多的模型

Seed-2.0-Lite 4

失败原因

答案错误293 未遵循指令33 额外格式20 API 错误14 无答案4 超时4

分类

领域专项421 反AI技巧293 编程259 谜题求解204 常识问答172 综合69 通用智能62 指令遵循61 数据解析与提取41 工具调用3

140/140

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
总测试数 4 错误测试数 2 总成本 $0.544 响应时间（平均） 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
总测试数 4 错误测试数 2 总成本 $0.300 响应时间（平均） 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
总测试数 4 错误测试数 3 总成本 $0.068 响应时间（平均） 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
总测试数 4 错误测试数 2 总成本 $0.621 响应时间（平均） 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
总测试数 4 错误测试数 2 总成本 $0.021 响应时间（平均） 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
总测试数 4 错误测试数 2 总成本 $0.046 响应时间（平均） 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
总测试数 4 错误测试数 2 总成本 $0.114 响应时间（平均） 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
总测试数 4 错误测试数 2 总成本 $0.041 响应时间（平均） 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
总测试数 4 错误测试数 3 总成本 $0.008 响应时间（平均） 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
总测试数 4 错误测试数 4 总成本 $0.025 响应时间（平均） 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
总测试数 4 错误测试数 4 总成本 $0.000 响应时间（平均） 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
总测试数 4 错误测试数 2 总成本 $0.000 响应时间（平均） 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
总测试数 4 错误测试数 3 总成本 $0.166 响应时间（平均） 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
总测试数 4 错误测试数 2 总成本 $0.000 响应时间（平均） 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
总测试数 4 错误测试数 3 总成本 $0.007 响应时间（平均） 844ms

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

反AI技巧：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型