AI BENCHY
比较 图表 方法论
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失败分析

无效工具调用 失败

看看哪些 AI 模型最常遇到 无效工具调用,让你在选择前先发现稳定性风险。 排序方式: 平均分 ↑.

显示的模型数

4

失败总数

4

受影响最多的模型

GLM 4.7 Flash 1

相关分类

排名 模型 公司 无效工具调用 次数 平均分 测试正确 响应时间(平均)
#52 GLM 4.7 Flash medium Z.ai 1 3.1 4/16 36.8s
#49 GLM 4.7 Flash none Z.ai 1 3.9 4/16 2.99s
#43 MiniMax M2.5 medium Minimax 1 4.7 5/16 43.0s
#33 DeepSeek V3.2 none DeepSeek 1 5.5 7/16 12.9s

按 无效工具调用 次数 排名的顶级模型

无效工具调用 次数 vs 平均分

按 响应时间(平均) 排名的顶级模型