工具调用 x 答案错误排名

看看哪些 AI 模型在工具调用上最容易遇到答案错误，更快找出薄弱点。排序方式: 测试正确 ↓.

显示的模型数

失败总数

受影响最多的模型

失败原因

API 错误17 无效工具调用9 未遵循指令8 答案错误3 无答案2

分类

领域专项412 反AI技巧293 编程252 谜题求解201 常识问答168 综合68 指令遵循61 通用智能59 数据解析与提取41 工具调用3

3/3

排名	模型	公司	答案错误次数	分类得分	总成本	测试正确	响应时间（平均）
#55	GPT-5.6 Terra low	OpenAI	1	4.7	$0.519	0/1	6.69s
总测试数 1 错误测试数 1 总成本 $0.519 响应时间（平均） 6.69s
#176	GLM 4.7 Flash none	Z.ai	1	2.8	$0.016	0/1	7.05s
总测试数 1 错误测试数 1 总成本 $0.016 响应时间（平均） 7.05s
#203	Grok 4.1 Fast none	X AI	1	2.8	$0.008	0/1	5.51s
总测试数 1 错误测试数 1 总成本 $0.008 响应时间（平均） 5.51s

筛选模型