AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 分类

指令遵循 排名

看看哪些 AI 模型在 指令遵循 上表现最好,哪些更稳定,以及差距主要出现在哪里。 排序方式: 指标 ↑.

显示的模型数

15

指令遵循 得分 平均值

8.5

最佳模型

Grok 4.1 Fast 3.0
排名 模型 公司 指令遵循 得分 分数 测试正确 响应时间(平均)
#136 Elephant Alpha medium Openrouter 9.8 5.1 2/2 987ms
#137 Elephant Alpha none Openrouter 9.8 5.1 2/2 1.03s
#138 Ling-2.6-flash none Inclusionai 9.8 5.0 2/2 5.52s
#3 Gemini 3.5 Flash low Google 9.9 9.4 2/2 1.86s
#6 GPT-5.5 low OpenAI 9.9 9.0 2/2 3.74s
#7 Gemini 3.5 Flash medium Google 9.9 9.0 2/2 2.70s
#16 Gemini 3 Flash Preview low Google 9.9 8.4 2/2 7.02s
#42 GPT-5.2 medium OpenAI 9.9 7.5 2/2 3.12s
#43 MiMo-V2.5-Pro medium Xiaomi 9.9 7.5 2/2 2.77s
#44 Gemini 3.1 Flash Lite medium Google 9.9 7.5 2/2 2.59s
#51 Mimo V2 PRO medium Xiaomi 9.9 7.4 2/2 3.36s
#56 MiMo-V2.5 medium Xiaomi 9.9 7.3 2/2 1.80s
#59 GLM 5V Turbo medium Z.ai 9.9 7.2 2/2 3.74s
#68 Claude Opus 4.8 none Anthropic 9.9 7.0 2/2 1.37s
#79 Hunter Alpha medium OpenRouter 9.9 6.7 2/2 4.18s

按 指令遵循 得分 排名的顶级模型

指令遵循 得分 vs 总成本

按 响应时间(平均) 排名的顶级模型