无效工具调用失败排名

看看哪些 AI 模型最常遇到无效工具调用，让你在选择前先发现稳定性风险。排序方式: 分数 ↓.

显示的模型数

失败总数

100

受影响最多的模型

Gemini 3.5 Flash 1

分类

在分类综合中91 在分类工具调用中9

83/83

排名	模型	公司	无效工具调用次数	分数	总成本	测试正确	响应时间（平均）
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
总测试数 22 错误测试数 2 总成本 $1.976 响应时间（平均） 15.1s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
总测试数 22 错误测试数 4 总成本 $1.116 响应时间（平均） 40.6s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
总测试数 22 错误测试数 3 总成本 $0.433 响应时间（平均） 5.55s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
总测试数 22 错误测试数 7 总成本 $1.357 响应时间（平均） 25.0s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
总测试数 22 错误测试数 5 总成本 $3.478 响应时间（平均） 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
总测试数 22 错误测试数 6 总成本 $0.922 响应时间（平均） 12.5s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	13/22	11.5s
总测试数 22 错误测试数 9 总成本 $0.647 响应时间（平均） 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
总测试数 22 错误测试数 10 总成本 $1.694 响应时间（平均） 31.5s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
总测试数 22 错误测试数 7 总成本 $1.006 响应时间（平均） 64.2s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
总测试数 22 错误测试数 8 总成本 $0.515 响应时间（平均） 26.4s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
总测试数 22 错误测试数 7 总成本 $0.391 响应时间（平均） 16.2s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
总测试数 22 错误测试数 8 总成本 $1.055 响应时间（平均） 11.3s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
总测试数 22 错误测试数 7 总成本 $0.267 响应时间（平均） 51.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	7.7	$0.042	13/22	49.7s
总测试数 22 错误测试数 9 总成本 $0.042 响应时间（平均） 49.7s
#51	Nemotron 3 Ultra medium	NVIDIA	1	7.5	$0.774	13/22	32.2s
总测试数 22 错误测试数 9 总成本 $0.774 响应时间（平均） 32.2s

1 2 3 4 5 6

→

无效工具调用失败

筛选模型

按无效工具调用次数排名的顶级模型

无效工具调用次数对比分数

按响应时间（平均）排名的顶级模型

无效工具调用 失败

筛选模型

按 无效工具调用 次数 排名的顶级模型

无效工具调用 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

无效工具调用失败

按无效工具调用次数排名的顶级模型

无效工具调用次数对比分数

按响应时间（平均）排名的顶级模型