领域专项模型排名

看看哪些 AI 模型在领域专项上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↓.

显示的模型数

领域专项得分平均值

4.7

最佳模型

Kimi K3 5.9

失败原因

失败原因为答案错误421 失败原因为超时43 失败原因为额外格式17 失败原因为无答案8 失败原因为 API 错误7 失败原因为未遵循指令1

216/216

排名	模型	公司	领域专项得分	分数	总成本	测试正确	响应时间（平均）
#100	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
总测试数 3 错误测试数 3 总成本 $0.089 响应时间（平均） 23.6s
#43	GPT-5.6 Terra medium	OpenAI	5.3	7.8	$0.676	1/3	23.4s
总测试数 3 错误测试数 2 总成本 $0.676 响应时间（平均） 23.4s
#94	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.746	1/3	22.5s
总测试数 3 错误测试数 2 总成本 $0.746 响应时间（平均） 22.5s
#106	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
总测试数 3 错误测试数 2 总成本 $0.018 响应时间（平均） 22.3s
#181	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/3	22.1s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 22.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
总测试数 3 错误测试数 3 总成本 $0.476 响应时间（平均） 21.6s
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
总测试数 3 错误测试数 2 总成本 $0.750 响应时间（平均） 21.3s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
总测试数 3 错误测试数 1 总成本 $0.922 响应时间（平均） 20.4s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
总测试数 3 错误测试数 2 总成本 $0.042 响应时间（平均） 19.7s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
总测试数 3 错误测试数 2 总成本 $0.584 响应时间（平均） 19.5s
#178	MiniMax M2.7 medium	Minimax	3.0	5.0	$0.163	0/3	19.0s
总测试数 3 错误测试数 3 总成本 $0.163 响应时间（平均） 19.0s
#34	GPT-5.2 Chat none	OpenAI	5.3	8.0	$0.604	1/3	17.8s
总测试数 3 错误测试数 2 总成本 $0.604 响应时间（平均） 17.8s
#205	Hy3 preview none	Tencent	3.6	4.0	$0.003	0/3	17.6s
总测试数 3 错误测试数 3 总成本 $0.003 响应时间（平均） 17.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
总测试数 3 错误测试数 3 总成本 $0.387 响应时间（平均） 17.5s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
总测试数 3 错误测试数 2 总成本 $0.437 响应时间（平均） 17.5s

领域专项排名

筛选模型

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型

领域专项 排名

筛选模型

按 领域专项 得分 排名的顶级模型

领域专项 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

领域专项排名

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型