领域专项 x 答案错误排名

看看哪些 AI 模型在领域专项上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

412

受影响最多的模型

Muse Spark 1.1 3

失败原因

答案错误412 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

领域专项412 反AI技巧293 编程252 谜题求解201 常识问答168 综合68 指令遵循61 通用智能59 数据解析与提取41 工具调用3

198/198

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
总测试数 3 错误测试数 3 总成本 $0.249 响应时间（平均） 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
总测试数 3 错误测试数 3 总成本 $0.047 响应时间（平均） 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
总测试数 3 错误测试数 3 总成本 $0.019 响应时间（平均） 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
总测试数 3 错误测试数 3 总成本 $0.046 响应时间（平均） 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
总测试数 3 错误测试数 3 总成本 $0.095 响应时间（平均） 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
总测试数 3 错误测试数 3 总成本 $0.041 响应时间（平均） 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
总测试数 3 错误测试数 3 总成本 $2.044 响应时间（平均） 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
总测试数 3 错误测试数 3 总成本 $0.048 响应时间（平均） 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
总测试数 3 错误测试数 3 总成本 $0.164 响应时间（平均） 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
总测试数 3 错误测试数 3 总成本 $0.015 响应时间（平均） 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
总测试数 3 错误测试数 3 总成本 $0.142 响应时间（平均） 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
总测试数 3 错误测试数 3 总成本 $0.061 响应时间（平均） 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
总测试数 3 错误测试数 3 总成本 $0.016 响应时间（平均） 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
总测试数 3 错误测试数 3 总成本 $0.025 响应时间（平均） 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
总测试数 3 错误测试数 3 总成本 $0.021 响应时间（平均） 464ms

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

领域专项：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型