通用智能 x 未遵循指令排名

看看哪些 AI 模型在通用智能上最容易遇到未遵循指令，更快找出薄弱点。排序方式: 测试正确 ↑.

显示的模型数

失败总数

受影响最多的模型

Grok 4.5 1

失败原因

未遵循指令78 答案错误59 API 错误12 超时4

分类

谜题求解90 通用智能78 反AI技巧33 指令遵循18 编程16 工具调用8 综合1 领域专项1

78/78

排名	模型	公司	未遵循指令次数	分类得分	总成本	测试正确	响应时间（平均）
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
总测试数 1 错误测试数 1 总成本 $1.707 响应时间（平均） 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
总测试数 1 错误测试数 1 总成本 $0.920 响应时间（平均） 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
总测试数 1 错误测试数 1 总成本 $1.533 响应时间（平均） 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
总测试数 1 错误测试数 1 总成本 $0.951 响应时间（平均） 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
总测试数 1 错误测试数 1 总成本 $0.922 响应时间（平均） 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
总测试数 1 错误测试数 1 总成本 $0.643 响应时间（平均） 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
总测试数 1 错误测试数 1 总成本 $0.237 响应时间（平均） 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
总测试数 1 错误测试数 1 总成本 $0.604 响应时间（平均） 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
总测试数 1 错误测试数 1 总成本 $0.234 响应时间（平均） 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
总测试数 1 错误测试数 1 总成本 $0.405 响应时间（平均） 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
总测试数 1 错误测试数 1 总成本 $0.307 响应时间（平均） 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
总测试数 1 错误测试数 1 总成本 $0.042 响应时间（平均） 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
总测试数 1 错误测试数 1 总成本 $0.286 响应时间（平均） 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
总测试数 1 错误测试数 1 总成本 $0.138 响应时间（平均） 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
总测试数 1 错误测试数 1 总成本 $0.571 响应时间（平均） 1.99s

1 2 3 4 5 6

→

筛选模型

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

通用智能：未遵循指令

筛选模型

按 未遵循指令 次数 排名的顶级模型

未遵循指令 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型