指令遵循模型排名

看看哪些 AI 模型在指令遵循上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↑.

显示的模型数

指令遵循得分平均值

8.6

最佳模型

Granite 4.1 8B 3.6

失败原因

失败原因为答案错误61 失败原因为未遵循指令19 失败原因为额外格式3 失败原因为无答案2 失败原因为 API 错误1 失败原因为超时1

216/216

排名	模型	公司	指令遵循得分	分数	总成本	测试正确	响应时间（平均）
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
总测试数 2 错误测试数 0 总成本 $3.059 响应时间（平均） 2.43s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
总测试数 2 错误测试数 0 总成本 $1.316 响应时间（平均） 2.50s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
总测试数 2 错误测试数 1 总成本 $0.045 响应时间（平均） 2.51s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
总测试数 2 错误测试数 0 总成本 $0.387 响应时间（平均） 2.53s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
总测试数 2 错误测试数 0 总成本 $0.068 响应时间（平均） 2.57s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
总测试数 2 错误测试数 0 总成本 $0.467 响应时间（平均） 2.58s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
总测试数 2 错误测试数 1 总成本 $0.548 响应时间（平均） 2.58s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
总测试数 2 错误测试数 0 总成本 $0.117 响应时间（平均） 2.59s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
总测试数 2 错误测试数 0 总成本 $2.057 响应时间（平均） 2.61s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
总测试数 2 错误测试数 0 总成本 $0.476 响应时间（平均） 2.61s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
总测试数 2 错误测试数 0 总成本 $0.643 响应时间（平均） 2.62s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
总测试数 2 错误测试数 1 总成本 $0.000 响应时间（平均） 2.63s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
总测试数 2 错误测试数 0 总成本 $0.482 响应时间（平均） 2.67s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
总测试数 2 错误测试数 1 总成本 $0.127 响应时间（平均） 2.67s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
总测试数 2 错误测试数 0 总成本 $0.642 响应时间（平均） 2.70s

指令遵循排名

筛选模型

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型

指令遵循 排名

筛选模型

按 指令遵循 得分 排名的顶级模型

指令遵循 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

指令遵循排名

按指令遵循得分排名的顶级模型

指令遵循得分 vs 总成本

按响应时间（平均）排名的顶级模型