AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 分类

谜题求解 排名

看看哪些 AI 模型在 谜题求解 上表现最好,哪些更稳定,以及差距主要出现在哪里。 排序方式: 响应时间(平均) ↑.

显示的模型数

15

谜题求解 得分 平均值

6.4

最佳模型

Grok 4.20 5.3
排名 模型 公司 谜题求解 得分 分数 测试正确 响应时间(平均)
#18 GLM 5 Turbo medium Z.ai 7.3 8.1 1/3 5.44s
#40 GPT-5.2 medium OpenAI 7.7 7.5 2/3 5.47s
#59 Qwen3.5-Flash none Qwen 3.3 6.2 0/3 5.90s
#5 Gemini 3 Flash Preview low Google 10.0 8.8 3/3 6.11s
#9 Qwen3.6 Plus Preview medium Qwen 10.0 8.5 3/3 6.11s
#20 Qwen3.6 Plus medium Qwen 10.0 8.1 3/3 6.11s
#84 gpt-oss-120b none OpenAI 4.5 5.2 0/3 6.86s
#2 Gemini 3.1 Pro Preview medium Google 10.0 9.6 3/3 7.15s
#64 DeepSeek V3.2 none DeepSeek 8.5 6.1 2/3 7.37s
#88 Nemotron 3 Super none NVIDIA 5.7 5.1 1/3 7.50s
#30 Step 3.5 Flash medium Stepfun 5.3 7.9 1/3 7.72s
#52 Grok 4.1 Fast medium X AI 5.3 6.7 1/3 8.08s
#51 Nemotron 3 Super medium NVIDIA 3.5 6.7 0/3 8.39s
#24 Gemma 4 26B A4B medium Google 7.9 8.0 2/3 8.52s
#16 GPT-5.4 medium OpenAI 8.2 8.2 2/3 9.13s

按 谜题求解 得分 排名的顶级模型

谜题求解 得分 vs 总成本

按 响应时间(平均) 排名的顶级模型