领域专项模型排名

看看哪些 AI 模型在领域专项上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 指标 ↑.

显示的模型数

领域专项得分平均值

4.7

最佳模型

GLM 5 Turbo 2.9

失败原因

失败原因为答案错误412 失败原因为超时43 失败原因为额外格式17 失败原因为无答案8 失败原因为 API 错误7 失败原因为未遵循指令1

210/210

排名	模型	公司	领域专项得分	分数	总成本	测试正确	响应时间（平均）
#65	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
总测试数 3 错误测试数 3 总成本 $0.117 响应时间（平均） 3.16s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
总测试数 3 错误测试数 3 总成本 $0.317 响应时间（平均） 53.1s
#72	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
总测试数 3 错误测试数 3 总成本 $1.046 响应时间（平均） 63.4s
#78	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
总测试数 3 错误测试数 3 总成本 $0.093 响应时间（平均） 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
总测试数 3 错误测试数 3 总成本 $0.467 响应时间（平均） 29.0s
#87	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
总测试数 3 错误测试数 3 总成本 $0.544 响应时间（平均） 1.31s
#99	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
总测试数 3 错误测试数 3 总成本 $0.779 响应时间（平均） 73.4s
#102	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
总测试数 3 错误测试数 3 总成本 $0.068 响应时间（平均） 65.7s
#120	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.047	0/3	1.02s
总测试数 3 错误测试数 3 总成本 $0.047 响应时间（平均） 1.02s
#122	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.046	0/3	762ms
总测试数 3 错误测试数 3 总成本 $0.046 响应时间（平均） 762ms
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
总测试数 3 错误测试数 3 总成本 $0.077 响应时间（平均） 7.47s
#151	GLM 5.1 none	Z.ai	2.9	5.5	$0.164	0/3	1.99s
总测试数 3 错误测试数 3 总成本 $0.164 响应时间（平均） 1.99s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
总测试数 3 错误测试数 3 总成本 $0.041 响应时间（平均） 4.99s
#159	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.142	0/3	737ms
总测试数 3 错误测试数 3 总成本 $0.142 响应时间（平均） 737ms
#173	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
总测试数 3 错误测试数 3 总成本 $0.054 响应时间（平均） 4.17s

领域专项排名

筛选模型

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型

领域专项 排名

筛选模型

按 领域专项 得分 排名的顶级模型

领域专项 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

领域专项排名

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型