指令遵循模型排名 | AI BENCHY

AI BENCHY 分类

看看哪些 AI 模型在指令遵循上表现最好，哪些更稳定，以及差距主要出现在哪里。

显示的模型数

15

指令遵循得分平均值

8.5

最佳模型

Gemini 3 Flash Preview 10.0

失败原因

失败原因为答案错误53 失败原因为未遵循指令11 失败原因为无答案2 失败原因为额外格式2 失败原因为 API 错误1

排名	模型	公司	指令遵循得分	分数	测试正确	响应时间（平均）
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	2/2	4.04s
#2	Gemini 3.5 Flash high	Google	10.0	9.6	2/2	3.35s
#4	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	2/2	9.56s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	2/2	7.46s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	2/2	1.46s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	2/2	3.36s
#10	Claude Opus 4.8 medium	Anthropic	10.0	8.7	2/2	3.32s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	2/2	1.57s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	2/2	24.3s
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	2/2	3.04s
#17	GLM 5 medium	Z.ai	10.0	8.3	2/2	7.25s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	2/2	16.1s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	2/2	7.26s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	2/2	3.11s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	2/2	5.38s

1 2 11

→

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型