谜题求解模型排名

看看哪些 AI 模型在谜题求解上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↓.

显示的模型数

谜题求解得分平均值

6.7

最佳模型

Muse Spark 1.1 7.8

失败原因

失败原因为答案错误204 失败原因为未遵循指令90 失败原因为 API 错误12 失败原因为额外格式8 失败原因为超时5 失败原因为无答案3

216/216

排名	模型	公司	谜题求解得分	分数	总成本	测试正确	响应时间（平均）
#114	Ring-2.6-1T medium	Inclusionai	5.9	6.3	$0.103	1/3	20.7s
总测试数 3 错误测试数 2 总成本 $0.103 响应时间（平均） 20.7s
#134	GPT-5 Nano medium	OpenAI	5.3	6.1	$0.114	1/3	20.6s
总测试数 3 错误测试数 2 总成本 $0.114 响应时间（平均） 20.6s
#107	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
总测试数 3 错误测试数 1 总成本 $0.082 响应时间（平均） 20.3s
#143	North Mini Code medium	Cohere	3.3	5.9	$0.000	0/3	19.7s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 19.7s
#52	Grok Build 0.1 medium	X AI	7.7	7.6	$1.097	2/3	18.3s
总测试数 3 错误测试数 1 总成本 $1.097 响应时间（平均） 18.3s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	3/3	17.9s
总测试数 3 错误测试数 0 总成本 $1.046 响应时间（平均） 17.9s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8.2	7.2	$0.317	2/3	17.7s
总测试数 3 错误测试数 1 总成本 $0.317 响应时间（平均） 17.7s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	3/3	16.4s
总测试数 3 错误测试数 0 总成本 $0.267 响应时间（平均） 16.4s
#29	GPT-5 Mini medium	OpenAI	5.6	8.1	$0.237	1/3	15.2s
总测试数 3 错误测试数 2 总成本 $0.237 响应时间（平均） 15.2s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
总测试数 3 错误测试数 1 总成本 $1.017 响应时间（平均） 14.6s
#42	GLM 5.2 medium	Z.ai	8.2	7.8	$0.187	2/3	13.1s
总测试数 3 错误测试数 1 总成本 $0.187 响应时间（平均） 13.1s
#200	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
总测试数 3 错误测试数 3 总成本 $0.166 响应时间（平均） 12.9s
#194	Cobuddy medium	Baidu	3.6	4.7	$0.000	0/3	12.8s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 12.8s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	3/3	11.3s
总测试数 3 错误测试数 0 总成本 $0.307 响应时间（平均） 11.3s
#196	MiniMax M2.5 medium	Minimax	5.3	4.6	$0.340	1/3	11.2s
总测试数 3 错误测试数 2 总成本 $0.340 响应时间（平均） 11.2s

谜题求解排名

筛选模型

按谜题求解得分排名的顶级模型

谜题求解得分 vs 总成本

按响应时间（平均）排名的顶级模型

谜题求解 排名

筛选模型

按 谜题求解 得分 排名的顶级模型

谜题求解 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

谜题求解排名

按谜题求解得分排名的顶级模型

谜题求解得分 vs 总成本

按响应时间（平均）排名的顶级模型