指令遵循模型排名 | AI BENCHY

AI BENCHY 分类

看看哪些 AI 模型在指令遵循上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↓.

显示的模型数

15

指令遵循得分平均值

8.5

最佳模型

Gemini 3 Flash Preview 10.0

失败原因

失败原因为答案错误53 失败原因为未遵循指令11 失败原因为无答案2 失败原因为额外格式2 失败原因为 API 错误1

排名	模型	公司	指令遵循得分	分数	测试正确	响应时间（平均）
#66	Qwen3.5-35B-A3B medium	Qwen	10.0	7.1	2/2	24.4s
#67	MiniMax M3 medium	Minimax	9.8	7.1	2/2	6.14s
#68	Claude Opus 4.8 none	Anthropic	9.9	7.0	2/2	1.37s
#69	Claude Opus 4.6 medium	Anthropic	10.0	7.0	2/2	2.43s
#70	GPT-5.4 Nano medium	OpenAI	9.8	7.0	2/2	1.88s
#71	Step 3.7 Flash high	Stepfun	9.8	7.0	2/2	1.52s
#72	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	2/2	35.8s
#73	Seed-2.0-Mini medium	Bytedance Seed	10.0	6.9	2/2	17.5s
#74	Qwen3.6 Max Preview none	Qwen	9.8	6.9	2/2	1.40s
#75	Ring-2.6-1T medium	Inclusionai	9.8	6.9	2/2	11.8s
#76	Kimi K2.5 medium	Moonshot AI	10.0	6.8	2/2	92.5s
#78	Qwen3.6 27B medium	Qwen	10.0	6.8	2/2	38.0s
#79	Hunter Alpha medium	OpenRouter	9.9	6.7	2/2	4.18s
#81	Mercury 2 medium	Inception	10.0	6.6	2/2	1.07s
#82	Hy3 preview high	Tencent	10.0	6.6	2/2	34.4s

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型