指令遵循模型排名

看看哪些 AI 模型在指令遵循上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

指令遵循得分平均值

8.6

最佳模型

Granite 4.1 8B 3.6

失败原因

失败原因为答案错误61 失败原因为未遵循指令19 失败原因为额外格式3 失败原因为无答案2 失败原因为 API 错误1 失败原因为超时1

216/216

排名	模型	公司	指令遵循得分	分数	总成本	测试正确	响应时间（平均）
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
总测试数 2 错误测试数 0 总成本 $1.166 响应时间（平均） 1.37s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
总测试数 2 错误测试数 1 总成本 $0.000 响应时间（平均） 1.37s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
总测试数 2 错误测试数 1 总成本 $0.096 响应时间（平均） 1.38s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
总测试数 2 错误测试数 0 总成本 $0.231 响应时间（平均） 1.40s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
总测试数 2 错误测试数 0 总成本 $0.676 响应时间（平均） 1.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
总测试数 2 错误测试数 0 总成本 $0.505 响应时间（平均） 1.46s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
总测试数 2 错误测试数 0 总成本 $0.095 响应时间（平均） 1.46s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
总测试数 2 错误测试数 0 总成本 $0.041 响应时间（平均） 1.48s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
总测试数 2 错误测试数 0 总成本 $0.519 响应时间（平均） 1.48s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
总测试数 2 错误测试数 0 总成本 $0.646 响应时间（平均） 1.49s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
总测试数 2 错误测试数 0 总成本 $0.048 响应时间（平均） 1.50s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
总测试数 2 错误测试数 0 总成本 $0.077 响应时间（平均） 1.51s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
总测试数 2 错误测试数 0 总成本 $1.207 响应时间（平均） 1.52s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
总测试数 2 错误测试数 0 总成本 $0.054 响应时间（平均） 1.52s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
总测试数 2 错误测试数 0 总成本 $0.621 响应时间（平均） 1.52s

指令遵循排名

筛选模型

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型

指令遵循 排名

筛选模型

按 指令遵循 得分 排名的顶级模型

指令遵循 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

指令遵循排名

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型