AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失败分析

答案错误 失败

看看哪些 AI 模型最常遇到 答案错误,让你在选择前先发现稳定性风险。

显示的模型数

15

失败总数

1104

受影响最多的模型

Mercury 2 15
排名 模型 公司 答案错误 次数 分数 测试正确 响应时间(平均)
#85 Kimi K2.5 medium Moonshot AI 5 6.7 9/20 89.0s
#102 Nemotron 3 Super medium NVIDIA 5 5.9 8/20 20.9s
#11 GPT-5.5 medium OpenAI 4 8.7 16/20 37.9s
#13 Gemini 3 Flash Preview low Google 4 8.6 16/20 5.81s
#17 GPT-5.3-Codex medium OpenAI 4 8.3 14/20 16.0s
#23 Qwen3.5 Plus 2026-02-15 medium Qwen 4 8.1 14/20 67.6s
#26 Hy3 preview low Tencent 4 7.9 15/20 24.6s
#27 Gemini 3.5 Flash minimal Google 4 7.9 14/20 1.58s
#31 GLM 5 Turbo medium Z.ai 4 7.9 13/20 22.7s
#35 Qwen3.6 35B A3B medium Qwen 4 7.8 14/20 17.3s
#36 Grok 4.3 medium X AI 4 7.8 13/20 49.2s
#45 Grok Build 0.1 medium X AI 4 7.7 13/20 42.4s
#56 GLM 5.1 medium Z.ai 4 7.4 12/20 33.5s
#58 MiMo-V2.5 medium Xiaomi 4 7.4 12/20 20.3s
#61 Step 3.5 Flash medium Stepfun 4 7.4 11/19 43.2s

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间(平均) 排名的顶级模型