AI BENCHY 分类失败
工具调用:无效工具调用
工具调用
无效工具调用
看看哪些 AI 模型在 工具调用 上最容易遇到 无效工具调用,更快找出薄弱点。 排序方式: 失败次数 ↑.
| 排名 | 模型 | 公司 | 无效工具调用 次数 | 分类得分 | 测试正确 | 响应时间(平均) |
|---|---|---|---|---|---|---|
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |
| #81 | Elephant medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #85 | Elephant none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |