领域专项 x 答案错误排名

看看哪些 AI 模型在领域专项上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

失败总数

421

受影响最多的模型

Muse Spark 1.1 3

失败原因

答案错误421 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

领域专项421 反AI技巧293 编程259 谜题求解204 常识问答172 综合69 通用智能62 指令遵循61 数据解析与提取41 工具调用3

202/202

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
总测试数 3 错误测试数 2 总成本 $0.052 响应时间（平均） 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
总测试数 3 错误测试数 2 总成本 $0.073 响应时间（平均） 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
总测试数 3 错误测试数 2 总成本 $0.548 响应时间（平均） 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
总测试数 3 错误测试数 2 总成本 $0.043 响应时间（平均） 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
总测试数 3 错误测试数 2 总成本 $0.017 响应时间（平均） 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
总测试数 3 错误测试数 2 总成本 $0.187 响应时间（平均） 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
总测试数 3 错误测试数 2 总成本 $0.062 响应时间（平均） 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
总测试数 3 错误测试数 2 总成本 $0.122 响应时间（平均） 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
总测试数 3 错误测试数 2 总成本 $0.095 响应时间（平均） 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
总测试数 3 错误测试数 2 总成本 $0.108 响应时间（平均） 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
总测试数 3 错误测试数 2 总成本 $0.750 响应时间（平均） 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
总测试数 3 错误测试数 2 总成本 $0.349 响应时间（平均） 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
总测试数 3 错误测试数 2 总成本 $0.385 响应时间（平均） 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
总测试数 3 错误测试数 2 总成本 $0.048 响应时间（平均） 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 71.4s

筛选模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

领域专项：答案错误

筛选模型

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按答案错误次数排名的顶级模型

答案错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型