工具调用模型排名

看看哪些 AI 模型在工具调用上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

工具调用得分平均值

8.7

最佳模型

Kimi K3 3.0

失败原因

失败原因为 API 错误17 失败原因为无效工具调用9 失败原因为未遵循指令8 失败原因为答案错误3 失败原因为无答案2

210/210

排名	模型	公司	工具调用得分	分数	总成本	测试正确	响应时间（平均）
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.001 响应时间（平均） 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
总测试数 1 错误测试数 0 总成本 $0.030 响应时间（平均） 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
总测试数 1 错误测试数 0 总成本 $0.021 响应时间（平均） 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
总测试数 1 错误测试数 0 总成本 $0.008 响应时间（平均） 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
总测试数 1 错误测试数 0 总成本 $0.022 响应时间（平均） 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
总测试数 1 错误测试数 0 总成本 $0.093 响应时间（平均） 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
总测试数 1 错误测试数 0 总成本 $0.017 响应时间（平均） 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
总测试数 1 错误测试数 1 总成本 $0.004 响应时间（平均） 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
总测试数 1 错误测试数 0 总成本 $0.247 响应时间（平均） 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
总测试数 1 错误测试数 0 总成本 $0.007 响应时间（平均） 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
总测试数 1 错误测试数 0 总成本 $0.025 响应时间（平均） 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
总测试数 1 错误测试数 0 总成本 $0.106 响应时间（平均） 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
总测试数 1 错误测试数 1 总成本 $0.095 响应时间（平均） 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
总测试数 1 错误测试数 0 总成本 $0.025 响应时间（平均） 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
总测试数 1 错误测试数 0 总成本 $0.025 响应时间（平均） 2.47s

工具调用排名

筛选模型

按工具调用得分排名的顶级模型

工具调用得分 vs 总成本

按响应时间（平均）排名的顶级模型

工具调用 排名

筛选模型

按 工具调用 得分 排名的顶级模型

工具调用 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

工具调用排名

按工具调用得分排名的顶级模型

工具调用得分 vs 总成本

按响应时间（平均）排名的顶级模型