AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 分类

指令遵循 排名

看看哪些 AI 模型在 指令遵循 上表现最好,哪些更稳定,以及差距主要出现在哪里。 排序方式: 测试正确 ↓.

显示的模型数

15

指令遵循 得分 平均值

8.5

排名 模型 公司 指令遵循 得分 分数 测试正确 响应时间(平均)
#107 Laguna Xs.2 medium Poolside 10.0 5.8 2/2 1.68s
#110 Seed-2.0-Lite none Bytedance Seed 10.0 5.8 2/2 1.06s
#112 GLM 5.1 none Z.ai 9.8 5.7 2/2 1.98s
#119 Cobuddy medium Baidu 9.8 5.6 2/2 11.6s
#126 gpt-oss-120b none OpenAI 9.8 5.4 2/2 5.06s
#133 DeepSeek V3.2 none DeepSeek 10.0 5.2 2/2 1.52s
#136 Elephant Alpha medium Openrouter 9.8 5.1 2/2 987ms
#137 Elephant Alpha none Openrouter 9.8 5.1 2/2 1.03s
#138 Ling-2.6-flash none Inclusionai 9.8 5.0 2/2 5.52s
#32 Gemini 3.5 Flash minimal Google 6.4 7.7 1/2 893ms
#48 Gemini 3 Flash Preview none Google 6.4 7.4 1/2 1.58s
#53 Gemini 3.1 Flash Lite high Google 7.3 7.3 1/2 23.3s
#55 GLM 5.1 medium Z.ai 6.4 7.3 1/2 7.47s
#62 Step 3.5 Flash medium Stepfun 8.3 7.2 1/2 4.78s
#77 Claude Sonnet 4.6 none Anthropic 6.5 6.8 1/2 1.96s

按 指令遵循 得分 排名的顶级模型

指令遵循 得分 vs 总成本

按 响应时间(平均) 排名的顶级模型