AI BENCHY 失败分析
无效工具调用 失败
看看哪些 AI 模型最常遇到 无效工具调用,让你在选择前先发现稳定性风险。 排序方式: 测试正确 ↑.
相关分类
| 排名 | 模型 | 公司 | 无效工具调用 次数 | 平均分 | 测试正确 | 响应时间(平均) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |