工具调用 x 无答案排名

看看哪些 AI 模型在工具调用上最容易遇到无答案，更快找出薄弱点。排序方式: 测试正确 ↓.

显示的模型数

失败总数

受影响最多的模型

失败原因

API 错误17 无效工具调用9 未遵循指令8 答案错误3 无答案2

分类

综合29 编程18 常识问答13 数据解析与提取8 领域专项8 反AI技巧4 谜题求解3 工具调用2 指令遵循2

2/2

排名	模型	公司	无答案次数	分类得分	总成本	测试正确	响应时间（平均）
#21	GPT-5.2 medium	OpenAI	1	4.7	$0.951	0/1	10.3s
总测试数 1 错误测试数 1 总成本 $0.951 响应时间（平均） 10.3s
#185	Grok 4.1 Fast medium	X AI	1	2.8	$0.069	0/1	27.7s
总测试数 1 错误测试数 1 总成本 $0.069 响应时间（平均） 27.7s

筛选模型