AI BENCHY
Your ad here

AI BENCHY 失敗分析

指示に従っていない の失敗

どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 失敗数 ↑.

表示モデル数

15

総失敗数

180

最も影響を受けたモデル

Qwen3.6 Plus Preview 1
順位 モデル 企業 指示に従っていない 件数 スコア 正解テスト 応答時間(平均)
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#25 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#60 Gemma 4 26B A4B none Google 3 6.2 7/18 6.59s
#69 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル