AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失敗分析

指示に従っていない の失敗

どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

10

総失敗数

225

最も影響を受けたモデル

MiniMax M2.7 5
順位 モデル 企業 指示に従っていない 件数 スコア 正解テスト 応答時間(平均)
#117 Grok 4.20 Beta none X AI 1 5.5 5/18 1.19s
#118 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 5.4 10/19 17.1s
#127 Laguna Xs.2 none Poolside 1 5.3 9/19 806ms
#131 DeepSeek V4 Flash none DeepSeek 1 5.1 5/20 27.9s
#132 Qwen3 Coder Next none Qwen 1 5.1 5/20 8.83s
#135 Mistral Small 4 none Mistral 1 5.0 5/20 658ms
#138 GPT-4o-mini none OpenAI 1 4.9 5/20 1.87s
#143 Mercury 2 none Inception 1 4.6 4/20 614ms
#145 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.6 8/19 726ms
#151 Qwen3.5-9B medium Qwen 1 4.2 3/20 80.1s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル