AI BENCHY
Advertise here

AI BENCHY 失败分析

答案错误 失败

看看哪些 AI 模型最常遇到 答案错误,让你在选择前先发现稳定性风险。

显示的模型数

15

失败总数

1104

受影响最多的模型

Mercury 2 15
排名 模型 公司 答案错误 次数 分数 测试正确 响应时间(平均)
#66 Laguna M.1 medium Poolside 4 7.3 13/19 14.7s
#75 Seed-2.0-Mini medium Bytedance Seed 4 7.1 11/20 80.2s
#78 Claude Sonnet 4.6 none Anthropic 4 7.0 11/20 5.27s
#82 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#89 Grok 4.20 Multi Agent Beta medium X AI 4 6.6 8/18 9.69s
#93 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#5 Qwen3.7 Max medium Qwen 3 9.0 17/20 13.8s
#8 GPT-5.5 low OpenAI 3 8.9 17/20 9.43s
#9 Gemini 3.5 Flash none Google 3 8.9 17/20 9.05s
#10 Claude Opus 4.7 none Anthropic 3 8.9 16/19 3.02s
#12 Claude Opus 4.8 medium Anthropic 3 8.7 16/20 9.34s
#15 Grok 4.20 Beta medium X AI 3 8.5 14/18 9.75s
#18 Hy3 preview high Tencent 3 8.3 16/20 56.6s
#19 Qwen3.6 Plus Preview medium Qwen 3 8.2 16/19 15.2s
#20 GLM 5 medium Z.ai 3 8.2 14/20 32.7s

按 答案错误 次数 排名的顶级模型

答案错误 次数 对比 分数

按 响应时间(平均) 排名的顶级模型