工具调用 x API 错误排名

看看哪些 AI 模型在工具调用上最容易遇到 API 错误，更快找出薄弱点。排序方式: 测试正确 ↓.

显示的模型数

失败总数

受影响最多的模型

Kimi K3 1

失败原因

API 错误17 无效工具调用9 未遵循指令8 答案错误3 无答案2

分类

编程45 综合26 工具调用17 反AI技巧14 数据解析与提取14 常识问答13 谜题求解12 通用智能12 领域专项7 指令遵循1

17/17

排名	模型	公司	API 错误次数	分类得分	总成本	测试正确	响应时间（平均）
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
总测试数 1 错误测试数 1 总成本 $3.112 响应时间（平均） 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.751 响应时间（平均） 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.535 响应时间（平均） 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
总测试数 1 错误测试数 1 总成本 $1.079 响应时间（平均） 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.746 响应时间（平均） 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.163 响应时间（平均） 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.035 响应时间（平均） 0ms
#153	Hy3 preview low	Tencent	1	2.8	$0.015	0/1	17.8s
总测试数 1 错误测试数 1 总成本 $0.015 响应时间（平均） 17.8s
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.061 响应时间（平均） 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.026 响应时间（平均） 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
总测试数 1 错误测试数 1 总成本 $5.599 响应时间（平均） 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.547 响应时间（平均） 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.010 响应时间（平均） 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.000 响应时间（平均） 0ms

筛选模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

工具调用：API 错误

筛选模型

按 API 错误 次数 排名的顶级模型

API 错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型