AI BENCHY
Advertise here

AI BENCHY 失敗分析

指示に従っていない の失敗

どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

15

総失敗数

225

最も影響を受けたモデル

MiniMax M2.7 5
順位 モデル 企業 指示に従っていない 件数 スコア 正解テスト 応答時間(平均)
#60 GLM 5V Turbo medium Z.ai 1 7.4 11/20 20.3s
#63 Claude Opus 4.6 medium Anthropic 1 7.2 12/20 25.4s
#67 MiMo-V2-Flash medium Xiaomi 1 7.1 11/20 20.3s
#68 Seed-2.0-Mini medium Bytedance Seed 1 7.1 11/20 79.2s
#69 Claude Sonnet 4.6 none Anthropic 1 7.0 11/20 5.33s
#74 Laguna M.1 medium Poolside 1 6.9 12/19 14.4s
#76 Gemma 4 31B none Google 1 6.7 10/20 3.84s
#83 Qwen3.6 27B medium Qwen 1 6.6 9/20 57.7s
#85 Gemini 3.1 Flash Lite none Google 1 6.6 9/20 1.09s
#92 Gemini 2.5 Flash none Google 1 6.2 8/20 893ms
#93 MiMo-V2-Omni none Xiaomi 1 6.2 8/20 2.44s
#109 GLM 4.7 Flash none Z.ai 1 5.6 6/20 2.98s
#112 GPT-5.4 none OpenAI 1 5.6 7/20 1.46s
#113 GLM 5.1 none Z.ai 1 5.6 6/20 4.16s
#116 Qwen3.6 Flash none Qwen 1 5.5 7/20 1.64s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル