AI BENCHY
比较 图表 方法论
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失败分析

无答案 失败

看看哪些 AI 模型最常遇到 无答案,让你在选择前先发现稳定性风险。 排序方式: 平均分 ↑.

显示的模型数

6

失败总数

7

受影响最多的模型

GLM 4.7 Flash 2
排名 模型 公司 无答案 次数 平均分 测试正确 响应时间(平均)
#52 GLM 4.7 Flash medium Z.ai 2 3.1 4/16 36.8s
#35 Qwen3.5-35B-A3B medium Qwen 1 5.5 8/16 43.9s
#30 Grok 4.1 Fast medium X AI 1 6.2 9/16 26.3s
#28 Kimi K2.5 medium Moonshot AI 1 6.4 9/16 69.8s
#27 GPT-5.2 medium OpenAI 1 6.5 10/16 15.3s
#14 GLM 5 medium Z.ai 1 7.4 11/16 16.2s

按 无答案 次数 排名的顶级模型

无答案 次数 vs 平均分

按 响应时间(平均) 排名的顶级模型