AI BENCHY
Advertise here

AI BENCHY 分类

谜题求解 排名

看看哪些 AI 模型在 谜题求解 上表现最好,哪些更稳定,以及差距主要出现在哪里。 排序方式: 响应时间(平均) ↑.

显示的模型数

15

谜题求解 得分 平均值

6.7

排名 模型 公司 谜题求解 得分 分数 测试正确 响应时间(平均)
#26 Qwen3.6 Plus medium Qwen 10.0 7.9 3/3 6.34s
#138 Ling-2.6-flash none Inclusionai 2.9 5.0 0/3 6.51s
#9 GPT-5.5 medium OpenAI 10.0 8.8 3/3 6.76s
#4 Gemini 3.1 Pro Preview medium Google 10.0 9.4 3/3 6.90s
#133 DeepSeek V3.2 none DeepSeek 7.6 5.2 2/3 6.91s
#62 Step 3.5 Flash medium Stepfun 5.3 7.2 1/3 7.22s
#86 Grok 4.1 Fast medium X AI 5.3 6.5 1/3 7.40s
#89 Hy3 preview low Tencent 5.3 6.4 1/3 7.51s
#93 Qwen3.6 Plus Preview medium Qwen 5.3 6.3 1/3 7.52s
#126 gpt-oss-120b none OpenAI 6.0 5.4 1/3 8.21s
#5 Qwen3.7 Max medium Qwen 10.0 9.1 3/3 8.84s
#21 GPT-5.4 medium OpenAI 8.2 8.0 2/3 9.14s
#100 Grok Build 0.1 none X AI 6.4 6.0 1/3 9.55s
#92 Laguna M.1 medium Poolside 5.3 6.4 1/3 10.2s
#71 Step 3.7 Flash high Stepfun 5.3 7.0 1/3 10.2s

按 谜题求解 得分 排名的顶级模型

谜题求解 得分 vs 总成本

按 响应时间(平均) 排名的顶级模型