AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY カテゴリ別失敗

パズル解決: 指示に従っていない

パズル解決
指示に従っていない

パズル解決 で 指示に従っていない が起きやすいAIモデルを確認し、弱点を早く見つけられます。 並び替え: 正解テスト ↓.

表示モデル数

15

総失敗数

78

最も影響を受けたモデル

Gemini 3.1 Flash Lite Preview 1
順位 モデル 企業 指示に従っていない 件数 カテゴリスコア 正解テスト 応答時間(平均)
#12 Gemini 3.1 Flash Lite Preview high Google 1 7.7 2/3 46.7s
#15 GPT-5.3-Codex medium OpenAI 1 9.0 2/3 5.05s
#19 Seed-2.0-Lite medium Bytedance Seed 1 9.0 2/3 10.2s
#21 GPT-5.4 medium OpenAI 1 8.2 2/3 9.14s
#23 GLM 5 Turbo medium Z.ai 1 8.7 2/3 5.23s
#30 Qwen3.5-27B medium Qwen 1 8.2 2/3 59.6s
#31 DeepSeek V4 Flash high DeepSeek 1 8.2 2/3 26.1s
#33 Hy3 preview medium Tencent 1 7.7 2/3 11.1s
#39 Qwen3.6 Flash medium Qwen 1 8.2 2/3 6.29s
#42 GPT-5.2 medium OpenAI 1 7.5 2/3 5.80s
#45 GPT-5.4 Mini medium OpenAI 1 7.8 2/3 4.37s
#96 Ring-2.6-1T none Inclusionai 1 7.7 2/3 31.5s
#38 Grok 4.3 medium X AI 1 5.9 1/3 22.5s
#43 MiMo-V2.5-Pro medium Xiaomi 1 6.7 1/3 5.31s
#51 Mimo V2 PRO medium Xiaomi 1 6.4 1/3 5.08s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル