领域专项模型排名

看看哪些 AI 模型在领域专项上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↓.

显示的模型数

领域专项得分平均值

4.7

最佳模型

Gemini 3.6 Flash 10.0

失败原因

失败原因为答案错误421 失败原因为超时43 失败原因为额外格式17 失败原因为无答案8 失败原因为 API 错误7 失败原因为未遵循指令1

216/216

排名	模型	公司	领域专项得分	分数	总成本	测试正确	响应时间（平均）
#119	MiMo-V2-Flash medium	Xiaomi	5.9	6.3	$0.043	1/3	96.0s
总测试数 3 错误测试数 2 总成本 $0.043 响应时间（平均） 96.0s
#120	Qwen3.5-Flash medium	Qwen	5.3	6.2	$0.139	1/3	146.5s
总测试数 3 错误测试数 2 总成本 $0.139 响应时间（平均） 146.5s
#124	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
总测试数 3 错误测试数 2 总成本 $0.017 响应时间（平均） 495ms
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
总测试数 3 错误测试数 2 总成本 $0.187 响应时间（平均） 1.99s
#130	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
总测试数 3 错误测试数 2 总成本 $0.062 响应时间（平均） 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
总测试数 3 错误测试数 2 总成本 $0.122 响应时间（平均） 4.43s
#134	GPT-5 Nano medium	OpenAI	5.2	6.1	$0.114	1/3	204.0s
总测试数 3 错误测试数 2 总成本 $0.114 响应时间（平均） 204.0s
#135	Nemotron 3 Ultra none	NVIDIA	5.3	6.1	$0.095	1/3	698ms
总测试数 3 错误测试数 2 总成本 $0.095 响应时间（平均） 698ms
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	170.5s
总测试数 3 错误测试数 2 总成本 $0.108 响应时间（平均） 170.5s
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
总测试数 3 错误测试数 2 总成本 $0.750 响应时间（平均） 21.3s
#138	GPT-5.6 Terra none	OpenAI	5.3	6.0	$0.349	1/3	757ms
总测试数 3 错误测试数 2 总成本 $0.349 响应时间（平均） 757ms
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
总测试数 3 错误测试数 2 总成本 $0.385 响应时间（平均） 7.01s
#141	Hy3 preview high	Tencent	5.3	5.9	$0.048	1/3	109.0s
总测试数 3 错误测试数 2 总成本 $0.048 响应时间（平均） 109.0s
#143	North Mini Code medium	Cohere	5.3	5.9	$0.000	1/3	71.4s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 71.4s
#144	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.184	1/3	1.48s
总测试数 3 错误测试数 2 总成本 $0.184 响应时间（平均） 1.48s

领域专项排名

筛选模型

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型

领域专项 排名

筛选模型

按 领域专项 得分 排名的顶级模型

领域专项 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

领域专项排名

按领域专项得分排名的顶级模型

领域专项得分 vs 总成本

按响应时间（平均）排名的顶级模型