AI BENCHY
Your ad here

AI BENCHY 失敗分析

指示に従っていない の失敗

どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: スコア ↑.

表示モデル数

15

総失敗数

180

最も影響を受けたモデル

LFM2-24B-A2B 2
順位 モデル 企業 指示に従っていない 件数 スコア 正解テスト 応答時間(平均)
#67 Qwen3.5-27B none Qwen 2 5.9 6/18 1.74s
#66 GPT-5.4 none OpenAI 1 5.9 7/18 1.51s
#65 MiMo-V2-Pro none Xiaomi 2 6.0 7/18 2.39s
#63 Qwen3.5-35B-A3B none Qwen 2 6.1 7/18 3.82s
#62 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#60 Gemma 4 26B A4B none Google 3 6.2 7/18 6.59s
#59 Qwen3.5-Flash none Qwen 1 6.2 8/18 3.25s
#58 GLM 5V Turbo none Z.ai 2 6.2 8/18 3.10s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#56 Grok 4.20 Multi Agent Beta medium X AI 4 6.4 7/18 9.80s
#55 MiMo-V2-Omni none Xiaomi 2 6.5 8/18 1.99s
#54 Mercury 2 medium Inception 4 6.5 8/18 2.21s
#52 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#51 Nemotron 3 Super medium NVIDIA 4 6.7 9/18 19.1s
#50 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル