领域专项 x 答案错误排名

看看哪些 AI 模型在领域专项上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

421

受影响最多的模型

Muse Spark 1.1 3

失败原因

答案错误421 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

领域专项421 反AI技巧293 编程259 谜题求解204 常识问答172 综合69 通用智能62 指令遵循61 数据解析与提取41 工具调用3

202/202

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
总测试数 3 错误测试数 2 总成本 $1.166 响应时间（平均） 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
总测试数 3 错误测试数 2 总成本 $0.454 响应时间（平均） 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
总测试数 3 错误测试数 2 总成本 $0.779 响应时间（平均） 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
总测试数 3 错误测试数 3 总成本 $0.078 响应时间（平均） 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
总测试数 3 错误测试数 3 总成本 $0.600 响应时间（平均） 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
总测试数 3 错误测试数 2 总成本 $0.096 响应时间（平均） 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
总测试数 3 错误测试数 3 总成本 $1.207 响应时间（平均） 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
总测试数 3 错误测试数 2 总成本 $0.746 响应时间（平均） 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
总测试数 3 错误测试数 3 总成本 $0.391 响应时间（平均） 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
总测试数 3 错误测试数 2 总成本 $0.457 响应时间（平均） 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
总测试数 3 错误测试数 3 总成本 $0.089 响应时间（平均） 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
总测试数 3 错误测试数 2 总成本 $0.128 响应时间（平均） 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
总测试数 3 错误测试数 2 总成本 $0.018 响应时间（平均） 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
总测试数 3 错误测试数 2 总成本 $0.646 响应时间（平均） 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
总测试数 3 错误测试数 2 总成本 $0.621 响应时间（平均） 1.52s

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

领域专项：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型