领域专项模型排名

看看哪些 AI 模型在领域专项上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

领域专项得分平均值

4.7

最佳模型

Claude Sonnet 4.6 2.9

失败原因

失败原因为答案错误421 失败原因为超时43 失败原因为额外格式17 失败原因为无答案8 失败原因为 API 错误7 失败原因为未遵循指令1

216/216

排名	模型	公司	领域专项得分	分数	总成本	测试正确	响应时间（平均）
#104	Gemini 3.5 Flash-Lite medium	Google	2.9	6.5	$0.369	0/3	6.62s
总测试数 3 错误测试数 3 总成本 $0.369 响应时间（平均） 6.62s
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
总测试数 3 错误测试数 2 总成本 $0.385 响应时间（平均） 7.01s
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
总测试数 3 错误测试数 3 总成本 $0.061 响应时间（平均） 7.45s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
总测试数 3 错误测试数 3 总成本 $0.077 响应时间（平均） 7.47s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
总测试数 3 错误测试数 2 总成本 $0.177 响应时间（平均） 8.05s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
总测试数 3 错误测试数 2 总成本 $0.519 响应时间（平均） 8.34s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	8.58s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 8.58s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
总测试数 3 错误测试数 2 总成本 $0.333 响应时间（平均） 8.82s
#123	GPT-5.6 Luna low	OpenAI	3.6	6.2	$0.249	0/3	10.0s
总测试数 3 错误测试数 3 总成本 $0.249 响应时间（平均） 10.0s
#190	Hunter Alpha medium	OpenRouter	3.0	4.7	$0.000	0/3	10.5s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 10.5s
#83	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
总测试数 3 错误测试数 1 总成本 $1.079 响应时间（平均） 10.6s
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
总测试数 3 错误测试数 3 总成本 $0.015 响应时间（平均） 11.1s
#1	Gemini 3.6 Flash medium	Google	8.2	9.9	$0.831	2/3	12.6s
总测试数 3 错误测试数 1 总成本 $0.831 响应时间（平均） 12.6s
#58	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
总测试数 3 错误测试数 3 总成本 $0.571 响应时间（平均） 13.0s
#4	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
总测试数 3 错误测试数 1 总成本 $1.976 响应时间（平均） 14.1s

领域专项排名

筛选模型

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型

领域专项 排名

筛选模型

按 领域专项 得分 排名的顶级模型

领域专项 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

领域专项排名

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型