领域专项 x 答案错误排名

看看哪些 AI 模型在领域专项上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

412

受影响最多的模型

Muse Spark 1.1 3

失败原因

答案错误412 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

领域专项412 反AI技巧293 编程252 谜题求解201 常识问答168 综合68 指令遵循61 通用智能59 数据解析与提取41 工具调用3

198/198

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#16	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
总测试数 3 错误测试数 3 总成本 $1.357 响应时间（平均） 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
总测试数 3 错误测试数 3 总成本 $1.143 响应时间（平均） 95.9s
#20	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
总测试数 3 错误测试数 3 总成本 $0.935 响应时间（平均） 72.6s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
总测试数 3 错误测试数 3 总成本 $1.928 响应时间（平均） 198.9s
#24	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
总测试数 3 错误测试数 3 总成本 $0.647 响应时间（平均） 29.7s
#36	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
总测试数 3 错误测试数 3 总成本 $0.267 响应时间（平均） 45.3s
#37	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
总测试数 3 错误测试数 3 总成本 $0.405 响应时间（平均） 29.6s
#45	DeepSeek V4 Flash high	DeepSeek	3	4.1	$0.042	0/3	100.3s
总测试数 3 错误测试数 3 总成本 $0.042 响应时间（平均） 100.3s
#51	Nemotron 3 Ultra medium	NVIDIA	3	3.5	$0.774	0/3	24.9s
总测试数 3 错误测试数 3 总成本 $0.774 响应时间（平均） 24.9s
#54	GPT-5.3 Chat none	OpenAI	3	3.5	$0.571	0/3	13.0s
总测试数 3 错误测试数 3 总成本 $0.571 响应时间（平均） 13.0s
#56	GPT-5.4 Mini medium	OpenAI	3	4.1	$0.756	0/3	65.3s
总测试数 3 错误测试数 3 总成本 $0.756 响应时间（平均） 65.3s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	3	4.1	$0.387	0/3	17.5s
总测试数 3 错误测试数 3 总成本 $0.387 响应时间（平均） 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3	3.0	$0.115	0/3	4.21s
总测试数 3 错误测试数 3 总成本 $0.115 响应时间（平均） 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	3	2.9	$0.117	0/3	3.16s
总测试数 3 错误测试数 3 总成本 $0.117 响应时间（平均） 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	3	2.9	$0.482	0/3	35.3s
总测试数 3 错误测试数 3 总成本 $0.482 响应时间（平均） 35.3s

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

领域专项：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型