指令遵循模型排名

看看哪些 AI 模型在指令遵循上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

指令遵循得分平均值

8.5

最佳模型

Granite 4.1 8B 3.6

失败原因

失败原因为答案错误61 失败原因为未遵循指令18 失败原因为额外格式3 失败原因为无答案2 失败原因为 API 错误1 失败原因为超时1

210/210

排名	模型	公司	指令遵循得分	分数	总成本	测试正确	响应时间（平均）
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
总测试数 2 错误测试数 1 总成本 $0.095 响应时间（平均） 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
总测试数 2 错误测试数 1 总成本 $0.025 响应时间（平均） 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
总测试数 2 错误测试数 1 总成本 $0.001 响应时间（平均） 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
总测试数 2 错误测试数 1 总成本 $0.041 响应时间（平均） 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
总测试数 2 错误测试数 1 总成本 $0.008 响应时间（平均） 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
总测试数 2 错误测试数 1 总成本 $0.106 响应时间（平均） 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
总测试数 2 错误测试数 2 总成本 $0.008 响应时间（平均） 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
总测试数 2 错误测试数 1 总成本 $0.025 响应时间（平均） 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
总测试数 2 错误测试数 0 总成本 $0.046 响应时间（平均） 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
总测试数 2 错误测试数 1 总成本 $0.016 响应时间（平均） 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
总测试数 2 错误测试数 1 总成本 $0.300 响应时间（平均） 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
总测试数 2 错误测试数 1 总成本 $0.106 响应时间（平均） 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
总测试数 2 错误测试数 0 总成本 $0.047 响应时间（平均） 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
总测试数 2 错误测试数 0 总成本 $0.197 响应时间（平均） 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
总测试数 2 错误测试数 0 总成本 $0.000 响应时间（平均） 987ms

指令遵循排名

筛选模型

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型

指令遵循 排名

筛选模型

按 指令遵循 得分 排名的顶级模型

指令遵循 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

指令遵循排名

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型