工具调用 x 未遵循指令排名 | AI BENCHY

看看哪些 AI 模型在工具调用上最容易遇到未遵循指令，更快找出薄弱点。

显示的模型数

8

失败总数

8

受影响最多的模型

失败原因

API 错误17 无效工具调用9 未遵循指令8 答案错误3 无答案2

分类

谜题求解90 通用智能78 反AI技巧33 指令遵循18 编程16 工具调用8 综合1 领域专项1

8/8

排名	模型	公司	未遵循指令次数	分类得分	总成本	测试正确	响应时间（平均）
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
总测试数 1 错误测试数 1 总成本 $0.756 响应时间（平均） 9.62s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
总测试数 1 错误测试数 1 总成本 $0.777 响应时间（平均） 13.7s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
总测试数 1 错误测试数 1 总成本 $0.187 响应时间（平均） 2.57s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
总测试数 1 错误测试数 1 总成本 $0.750 响应时间（平均） 12.4s
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
总测试数 1 错误测试数 1 总成本 $0.095 响应时间（平均） 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
总测试数 1 错误测试数 1 总成本 $0.147 响应时间（平均） 2.50s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
总测试数 1 错误测试数 1 总成本 $0.163 响应时间（平均） 12.0s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
总测试数 1 错误测试数 1 总成本 $0.008 响应时间（平均） 16.0s

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型