指令遵循模型排名 | AI BENCHY

AI BENCHY 分类

看看哪些 AI 模型在指令遵循上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↑.

显示的模型数

15

指令遵循得分平均值

8.5

最佳模型

MiniMax M2.7 3.8

失败原因

失败原因为答案错误53 失败原因为未遵循指令11 失败原因为无答案2 失败原因为额外格式2 失败原因为 API 错误1

排名	模型	公司	指令遵循得分	分数	测试正确	响应时间（平均）
#141	Nemotron 3 Super none	NVIDIA	6.3	4.9	1/2	804ms
#142	Mistral Small 4 none	Mistral	6.5	4.9	1/2	380ms
#143	MiMo-V2.5 none	Xiaomi	6.5	4.9	1/2	751ms
#144	GPT-5.4 Mini none	OpenAI	6.3	4.9	1/2	728ms
#145	Laguna M.1 none	Poolside	6.3	4.8	1/2	683ms
#146	Laguna Xs.2 none	Poolside	6.5	4.8	1/2	439ms
#147	GPT-4o-mini none	OpenAI	6.3	4.8	1/2	1.11s
#148	GPT-5.4 Nano none	OpenAI	6.3	4.7	1/2	784ms
#149	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	4.6	1/2	1.37s
#150	Qwen3 Coder Next medium	Qwen	6.3	4.6	1/2	7.49s
#152	MiMo-V2-Flash none	Xiaomi	6.5	4.6	1/2	857ms
#153	Qwen3.6 35B A3B none	Qwen	6.2	4.6	1/2	1.86s
#154	Qwen3.5-9B none	Qwen	6.5	4.6	1/2	514ms
#155	Mercury 2 none	Inception	6.5	4.5	1/2	551ms
#156	Hy3 preview none	Tencent	6.3	4.4	1/2	13.0s

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型