谜题求解 x 未遵循指令排名

看看哪些 AI 模型在谜题求解上最容易遇到未遵循指令，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

Gemini 3.1 Flash Lite 2

失败原因

答案错误201 未遵循指令90 API 错误12 额外格式8 超时5 无答案3

分类

谜题求解90 通用智能78 反AI技巧33 指令遵循18 编程16 工具调用8 综合1 领域专项1

86/86

排名	模型	公司	未遵循指令次数	分类得分	总成本	测试正确	响应时间（平均）
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
总测试数 3 错误测试数 3 总成本 $0.096 响应时间（平均） 2.17s
#168	MiMo-V2.5 none	Xiaomi	1	5.4	$0.025	1/3	2.13s
总测试数 3 错误测试数 2 总成本 $0.025 响应时间（平均） 2.13s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
总测试数 3 错误测试数 3 总成本 $0.021 响应时间（平均） 621ms
#170	GLM 5 Turbo none	Z.ai	1	5.5	$0.047	1/3	2.65s
总测试数 3 错误测试数 2 总成本 $0.047 响应时间（平均） 2.65s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
总测试数 3 错误测试数 2 总成本 $0.163 响应时间（平均） 24.9s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
总测试数 3 错误测试数 3 总成本 $0.010 响应时间（平均） 1.21s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
总测试数 3 错误测试数 2 总成本 $0.016 响应时间（平均） 1.20s
#177	Nemotron 3 Super none	NVIDIA	1	5.5	$0.008	1/3	2.36s
总测试数 3 错误测试数 2 总成本 $0.008 响应时间（平均） 2.36s
#178	Ling-2.6-flash none	Inclusionai	1	2.9	$0.002	0/3	6.51s
总测试数 3 错误测试数 3 总成本 $0.002 响应时间（平均） 6.51s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
总测试数 3 错误测试数 1 总成本 $0.026 响应时间（平均） 31.5s
#180	GPT-5.4 Nano none	OpenAI	1	5.4	$0.041	1/3	1.25s
总测试数 3 错误测试数 2 总成本 $0.041 响应时间（平均） 1.25s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.7	$5.599	1/3	5.19s
总测试数 3 错误测试数 2 总成本 $5.599 响应时间（平均） 5.19s
#183	Trinity Large Preview none	Arcee AI	1	3.6	$0.008	0/3	1.97s
总测试数 3 错误测试数 3 总成本 $0.008 响应时间（平均） 1.97s
#184	Hunter Alpha medium	OpenRouter	1	6.1	$0.000	1/3	5.35s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 5.35s
#185	Grok 4.1 Fast medium	X AI	1	5.3	$0.069	1/3	7.40s
总测试数 3 错误测试数 2 总成本 $0.069 响应时间（平均） 7.40s

←

1 2 3 4 5 6

→

筛选模型

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

谜题求解：未遵循指令

筛选模型

按 未遵循指令 次数 排名的顶级模型

未遵循指令 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按未遵循指令次数排名的顶级模型

未遵循指令次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型