AI BENCHY
Your ad here

AI BENCHY 分类

指令遵循 排名

看看哪些 AI 模型在 指令遵循 上表现最好,哪些更稳定,以及差距主要出现在哪里。

显示的模型数

15

指令遵循 得分 平均值

8.0

排名 模型 公司 指令遵循 得分 分数 测试正确 响应时间(平均)
#94 MiMo-V2-Flash none Xiaomi 6.5 4.5 1/2 857ms
#21 Gemini 3 Flash Preview none Google 6.4 8.1 1/2 1.58s
#33 GLM 5.1 medium Z.ai 6.4 7.8 1/2 7.47s
#97 Qwen3.5-9B medium Qwen 6.4 4.4 1/2 17.1s
#72 Hunter Alpha none OpenRouter 6.4 5.7 1/2 2.82s
#59 Qwen3.5-Flash none Qwen 6.3 6.2 1/2 8.81s
#63 Qwen3.5-35B-A3B none Qwen 6.3 6.1 1/2 809ms
#86 GPT-5.4 Mini none OpenAI 6.3 5.1 1/2 728ms
#93 GLM 4.7 Flash medium Z.ai 6.2 4.6 1/2 2.97s
#96 GPT-5.4 Nano none OpenAI 5.0 4.5 0/2 787ms
#88 Nemotron 3 Super none NVIDIA 4.9 5.1 0/2 1.50s
#67 Qwen3.5-27B none Qwen 4.8 5.9 0/2 815ms
#79 Grok 4.20 Beta none X AI 4.8 5.3 0/2 687ms
#82 Grok 4.20 none X AI 4.8 5.2 0/2 455ms
#87 Qwen3 Coder Next none Qwen 4.8 5.1 0/2 7.71s

按 指令遵循 得分 排名的顶级模型

指令遵循 得分 vs 总成本

按 响应时间(平均) 排名的顶级模型