反AI技巧模型排名

看看哪些 AI 模型在反AI技巧上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

反AI技巧得分平均值

7.2

最佳模型

Mistral Small 4 3.4

失败原因

失败原因为答案错误293 失败原因为未遵循指令33 失败原因为额外格式20 失败原因为 API 错误14 失败原因为无答案4 失败原因为超时4

216/216

排名	模型	公司	反AI技巧得分	分数	总成本	测试正确	响应时间（平均）
#67	Claude Sonnet 4.6 none	Anthropic	4.8	7.3	$0.661	1/4	2.94s
总测试数 4 错误测试数 3 总成本 $0.661 响应时间（平均） 2.94s
#44	Claude Sonnet 4.6 medium	Anthropic	6.5	7.8	$2.057	2/4	2.98s
总测试数 4 错误测试数 2 总成本 $2.057 响应时间（平均） 2.98s
#48	GPT-5.6 Luna high	OpenAI	8.3	7.7	$1.017	3/4	2.99s
总测试数 4 错误测试数 1 总成本 $1.017 响应时间（平均） 2.99s
#151	GLM 5V Turbo none	Z.ai	4.8	5.6	$0.052	1/4	3.13s
总测试数 4 错误测试数 3 总成本 $0.052 响应时间（平均） 3.13s
#137	Grok 4.20 Beta medium	X AI	8.7	6.0	$0.750	3/4	3.16s
总测试数 4 错误测试数 1 总成本 $0.750 响应时间（平均） 3.16s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.0	7.2	$0.482	2/4	3.17s
总测试数 4 错误测试数 2 总成本 $0.482 响应时间（平均） 3.17s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	4/4	3.26s
总测试数 4 错误测试数 0 总成本 $0.187 响应时间（平均） 3.26s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	4/4	3.30s
总测试数 4 错误测试数 0 总成本 $2.077 响应时间（平均） 3.30s
#172	Qwen3 Coder Next none	Qwen	3.6	5.1	$0.025	0/4	3.31s
总测试数 4 错误测试数 4 总成本 $0.025 响应时间（平均） 3.31s
#8	GPT-5.6 Sol high	OpenAI	8.7	9.4	$1.234	3/4	3.39s
总测试数 4 错误测试数 1 总成本 $1.234 响应时间（平均） 3.39s
#70	Claude Opus 4.8 none	Anthropic	6.5	7.3	$1.166	2/4	3.40s
总测试数 4 错误测试数 2 总成本 $1.166 响应时间（平均） 3.40s
#34	GPT-5.2 Chat none	OpenAI	8.7	8.0	$0.604	3/4	3.40s
总测试数 4 错误测试数 1 总成本 $0.604 响应时间（平均） 3.40s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.9	4.8	$5.599	2/4	3.46s
总测试数 4 错误测试数 2 总成本 $5.599 响应时间（平均） 3.46s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	4/4	3.48s
总测试数 4 错误测试数 0 总成本 $0.177 响应时间（平均） 3.48s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7.3	5.4	$0.041	2/4	3.50s
总测试数 4 错误测试数 2 总成本 $0.041 响应时间（平均） 3.50s

反AI技巧排名

筛选模型

按反AI技巧得分排名的顶级模型

反AI技巧得分 vs 总成本

按响应时间（平均）排名的顶级模型

反AI技巧 排名

筛选模型

按 反AI技巧 得分 排名的顶级模型

反AI技巧 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

反AI技巧排名

按反AI技巧得分排名的顶级模型

反AI技巧得分 vs 总成本

按响应时间（平均）排名的顶级模型