领域专项 x 答案错误排名

看看哪些 AI 模型在领域专项上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

421

受影响最多的模型

Muse Spark 1.1 3

失败原因

答案错误421 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

领域专项421 反AI技巧293 编程259 谜题求解204 常识问答172 综合69 通用智能62 指令遵循61 数据解析与提取41 工具调用3

202/202

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
总测试数 3 错误测试数 2 总成本 $0.584 响应时间（平均） 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
总测试数 3 错误测试数 2 总成本 $0.604 响应时间（平均） 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
总测试数 3 错误测试数 2 总成本 $0.391 响应时间（平均） 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
总测试数 3 错误测试数 2 总成本 $1.055 响应时间（平均） 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
总测试数 3 错误测试数 2 总成本 $0.234 响应时间（平均） 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
总测试数 3 错误测试数 2 总成本 $0.676 响应时间（平均） 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
总测试数 3 错误测试数 2 总成本 $2.077 响应时间（平均） 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
总测试数 3 错误测试数 3 总成本 $0.307 响应时间（平均） 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
总测试数 3 错误测试数 3 总成本 $0.200 响应时间（平均） 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
总测试数 3 错误测试数 3 总成本 $0.323 响应时间（平均） 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
总测试数 3 错误测试数 2 总成本 $0.352 响应时间（平均） 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
总测试数 3 错误测试数 2 总成本 $0.138 响应时间（平均） 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
总测试数 3 错误测试数 2 总成本 $0.519 响应时间（平均） 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
总测试数 3 错误测试数 3 总成本 $0.478 响应时间（平均） 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
总测试数 3 错误测试数 2 总成本 $0.177 响应时间（平均） 8.05s

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

领域专项：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型