领域专项 x 答案错误排名

看看哪些 AI 模型在领域专项上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

421

受影响最多的模型

Muse Spark 1.1 3

失败原因

答案错误421 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

领域专项421 反AI技巧293 编程259 谜题求解204 常识问答172 综合69 通用智能62 指令遵循61 数据解析与提取41 工具调用3

202/202

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
总测试数 3 错误测试数 2 总成本 $0.147 响应时间（平均） 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
总测试数 3 错误测试数 2 总成本 $0.022 响应时间（平均） 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
总测试数 3 错误测试数 2 总成本 $0.025 响应时间（平均） 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
总测试数 3 错误测试数 2 总成本 $0.047 响应时间（平均） 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
总测试数 3 错误测试数 3 总成本 $0.054 响应时间（平均） 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
总测试数 3 错误测试数 2 总成本 $0.026 响应时间（平均） 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
总测试数 3 错误测试数 3 总成本 $5.599 响应时间（平均） 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
总测试数 3 错误测试数 2 总成本 $0.008 响应时间（平均） 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
总测试数 3 错误测试数 2 总成本 $0.033 响应时间（平均） 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
总测试数 3 错误测试数 2 总成本 $0.032 响应时间（平均） 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
总测试数 3 错误测试数 2 总成本 $0.030 响应时间（平均） 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
总测试数 3 错误测试数 3 总成本 $0.340 响应时间（平均） 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
总测试数 3 错误测试数 3 总成本 $0.166 响应时间（平均） 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 2.33s

←

1 9 10 11 14

→

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

领域专项：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型