谜题求解 x API 错误排名

看看哪些 AI 模型在谜题求解上最容易遇到 API 错误，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

Qwen3.6 Plus Preview 2

失败原因

答案错误201 未遵循指令90 API 错误12 额外格式8 超时5 无答案3

分类

编程45 综合26 工具调用17 反AI技巧14 数据解析与提取14 常识问答13 谜题求解12 通用智能12 领域专项7 指令遵循1

11/11

排名	模型	公司	API 错误次数	分类得分	总成本	测试正确	响应时间（平均）
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
总测试数 3 错误测试数 2 总成本 $0.000 响应时间（平均） 7.52s
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
总测试数 3 错误测试数 1 总成本 $0.048 响应时间（平均） 27.9s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
总测试数 3 错误测试数 2 总成本 $0.015 响应时间（平均） 7.51s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
总测试数 3 错误测试数 1 总成本 $0.054 响应时间（平均） 6.91s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
总测试数 3 错误测试数 2 总成本 $0.033 响应时间（平均） 10.2s
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
总测试数 3 错误测试数 3 总成本 $0.009 响应时间（平均） 891ms
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
总测试数 3 错误测试数 2 总成本 $0.015 响应时间（平均） 1.93s
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
总测试数 3 错误测试数 2 总成本 $0.004 响应时间（平均） 650ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 1.40s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
总测试数 3 错误测试数 3 总成本 $0.000 响应时间（平均） 532ms
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
总测试数 3 错误测试数 3 总成本 $0.001 响应时间（平均） 1.78s

筛选模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

谜题求解：API 错误

筛选模型

按 API 错误 次数 排名的顶级模型

API 错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型