谜题求解 x 超时排名

看看哪些 AI 模型在谜题求解上最容易遇到超时，更快找出薄弱点。排序方式: 测试正确 ↓.

显示的模型数

失败总数

受影响最多的模型

失败原因

答案错误201 未遵循指令90 API 错误12 额外格式8 超时5 无答案3

分类

领域专项43 编程26 综合5 谜题求解5 反AI技巧4 通用智能4 指令遵循1 数据解析与提取1

4/4

排名	模型	公司	超时次数	分类得分	总成本	测试正确	响应时间（平均）
#114	Qwen3.5-Flash medium	Qwen	1	8.2	$0.139	2/3	27.6s
总测试数 3 错误测试数 1 总成本 $0.139 响应时间（平均） 27.6s
#119	Qwen3.5-35B-A3B medium	Qwen	1	8.2	$0.837	2/3	33.1s
总测试数 3 错误测试数 1 总成本 $0.837 响应时间（平均） 33.1s
#190	MiniMax M2.5 medium	Minimax	1	5.3	$0.340	1/3	11.2s
总测试数 3 错误测试数 2 总成本 $0.340 响应时间（平均） 11.2s
#204	Qwen3.5-9B medium	Qwen	2	3.0	$0.036	0/3	32.3s
总测试数 3 错误测试数 3 总成本 $0.036 响应时间（平均） 32.3s

筛选模型