领域专项 x API 错误排名 | AI BENCHY

看看哪些 AI 模型在领域专项上最容易遇到 API 错误，更快找出薄弱点。

显示的模型数

7

失败总数

7

受影响最多的模型

Muse Spark 1.1 1

失败原因

答案错误412 超时43 额外格式17 无答案8 API 错误7 未遵循指令1

分类

编程45 综合26 工具调用17 反AI技巧14 数据解析与提取14 常识问答13 谜题求解12 通用智能12 领域专项7 指令遵循1

7/7

排名	模型	公司	API 错误次数	分类得分	总成本	测试正确	响应时间（平均）
#27	Muse Spark 1.1 high	Meta	1	3.5	$1.694	0/3	67.4s
总测试数 3 错误测试数 3 总成本 $1.694 响应时间（平均） 67.4s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	2.9	$0.041	0/3	4.99s
总测试数 3 错误测试数 3 总成本 $0.041 响应时间（平均） 4.99s
#167	Mistral Small 4 medium	Mistral	1	5.3	$0.096	1/3	6.11s
总测试数 3 错误测试数 2 总成本 $0.096 响应时间（平均） 6.11s
#173	DeepSeek V3.2 none	DeepSeek	1	2.9	$0.054	0/3	4.17s
总测试数 3 错误测试数 3 总成本 $0.054 响应时间（平均） 4.17s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/3	22.1s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 22.1s
#199	Hy3 preview none	Tencent	1	3.6	$0.003	0/3	17.6s
总测试数 3 错误测试数 3 总成本 $0.003 响应时间（平均） 17.6s
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
总测试数 3 错误测试数 2 总成本 $0.001 响应时间（平均） 287ms

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型