谜题求解模型排名

看看哪些 AI 模型在谜题求解上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↓.

显示的模型数

谜题求解得分平均值

6.7

最佳模型

Gemini 3.6 Flash 10.0

失败原因

失败原因为答案错误204 失败原因为未遵循指令90 失败原因为 API 错误12 失败原因为额外格式8 失败原因为超时5 失败原因为无答案3

216/216

排名	模型	公司	谜题求解得分	分数	总成本	测试正确	响应时间（平均）
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8.2	7.2	$0.317	2/3	17.7s
总测试数 3 错误测试数 1 总成本 $0.317 响应时间（平均） 17.7s
#75	Qwen3.7 Plus none	Qwen	7.7	7.2	$0.106	2/3	1.71s
总测试数 3 错误测试数 1 总成本 $0.106 响应时间（平均） 1.71s
#78	GLM 5.1 medium	Z.ai	8.2	7.1	$0.535	2/3	31.6s
总测试数 3 错误测试数 1 总成本 $0.535 响应时间（平均） 31.6s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
总测试数 3 错误测试数 1 总成本 $0.777 响应时间（平均） 6.22s
#84	Seed-2.0-Mini medium	Bytedance Seed	8.2	7.0	$0.101	2/3	31.8s
总测试数 3 错误测试数 1 总成本 $0.101 响应时间（平均） 31.8s
#87	GPT-5.6 Sol none	OpenAI	7.7	6.9	$0.524	2/3	1.49s
总测试数 3 错误测试数 1 总成本 $0.524 响应时间（平均） 1.49s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
总测试数 3 错误测试数 1 总成本 $0.738 响应时间（平均） 6.29s
#91	GPT-5.5 none	OpenAI	7.7	6.9	$0.544	2/3	1.29s
总测试数 3 错误测试数 1 总成本 $0.544 响应时间（平均） 1.29s
#93	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	1.05s
总测试数 3 错误测试数 1 总成本 $0.085 响应时间（平均） 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
总测试数 3 错误测试数 1 总成本 $0.746 响应时间（平均） 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
总测试数 3 错误测试数 1 总成本 $0.145 响应时间（平均） 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
总测试数 3 错误测试数 1 总成本 $0.476 响应时间（平均） 3.03s
#98	GLM 5V Turbo medium	Z.ai	7.7	6.7	$0.457	2/3	10.2s
总测试数 3 错误测试数 1 总成本 $0.457 响应时间（平均） 10.2s
#101	GLM 5.2 none	Z.ai	7.7	6.6	$0.128	2/3	3.31s
总测试数 3 错误测试数 1 总成本 $0.128 响应时间（平均） 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	8.4	6.5	$0.369	2/3	1.70s
总测试数 3 错误测试数 1 总成本 $0.369 响应时间（平均） 1.70s

谜题求解排名

筛选模型

按谜题求解得分排名的顶级模型

谜题求解得分 vs 总成本

按响应时间（平均）排名的顶级模型

谜题求解 排名

筛选模型

按 谜题求解 得分 排名的顶级模型

谜题求解 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

谜题求解排名

按谜题求解得分排名的顶级模型

谜题求解得分 vs 总成本

按响应时间（平均）排名的顶级模型