领域专项模型排名

看看哪些 AI 模型在领域专项上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

领域专项得分平均值

4.7

最佳模型

Claude Sonnet 4.6 2.9

失败原因

失败原因为答案错误433 失败原因为超时43 失败原因为额外格式17 失败原因为无答案8 失败原因为 API 错误7 失败原因为未遵循指令1

220/220

排名	模型	公司	领域专项得分	分数	总成本	测试正确	响应时间（平均）
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
总测试数 3 错误测试数 2 总成本 $0.073 响应时间（平均） 1.17s
#18	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
总测试数 3 错误测试数 1 总成本 $1.477 响应时间（平均） 1.17s
#99	Claude Opus 4.7 none	Anthropic	7.7	6.6	$0.505	2/3	1.19s
总测试数 3 错误测试数 1 总成本 $0.505 响应时间（平均） 1.19s
#103	Qwen3.6 Max Preview none	Qwen	7.7	6.6	$0.231	2/3	1.22s
总测试数 3 错误测试数 1 总成本 $0.231 响应时间（平均） 1.22s
#91	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
总测试数 3 错误测试数 3 总成本 $0.544 响应时间（平均） 1.31s
#122	Seed-2.0-Lite none	Bytedance Seed	3.6	6.2	$0.066	0/3	1.33s
总测试数 3 错误测试数 3 总成本 $0.066 响应时间（平均） 1.33s
#87	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
总测试数 3 错误测试数 3 总成本 $0.524 响应时间（平均） 1.43s
#172	Inkling none	Thinkingmachines	5.3	5.2	$0.147	1/3	1.45s
总测试数 3 错误测试数 2 总成本 $0.147 响应时间（平均） 1.45s
#144	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.184	1/3	1.48s
总测试数 3 错误测试数 2 总成本 $0.184 响应时间（平均） 1.48s
#111	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
总测试数 3 错误测试数 2 总成本 $0.621 响应时间（平均） 1.52s
#70	Claude Opus 4.8 none	Anthropic	5.3	7.3	$1.166	1/3	1.70s
总测试数 3 错误测试数 2 总成本 $1.166 响应时间（平均） 1.70s
#117	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
总测试数 3 错误测试数 3 总成本 $0.044 响应时间（平均） 1.72s
#153	Mimo V2 PRO none	Xiaomi	5.3	5.6	$0.045	1/3	1.78s
总测试数 3 错误测试数 2 总成本 $0.045 响应时间（平均） 1.78s
#178	GLM 5 Turbo none	Z.ai	5.3	5.1	$0.047	1/3	1.97s
总测试数 3 错误测试数 2 总成本 $0.047 响应时间（平均） 1.97s
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
总测试数 3 错误测试数 2 总成本 $0.187 响应时间（平均） 1.99s

领域专项排名

筛选模型

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型

领域专项 排名

筛选模型

按 领域专项 得分 排名的顶级模型

领域专项 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

领域专项排名

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型