AI BENCHY
Advertise here

AI BENCHY 失敗分析

指示に従っていない の失敗

どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 失敗数 ↑.

表示モデル数

15

総失敗数

215

最も影響を受けたモデル

Gemini 3.5 Flash 1
順位 モデル 企業 指示に従っていない 件数 スコア 正解テスト 応答時間(平均)
#90 Gemini 3.1 Flash Lite none Google 1 6.4 9/21 1.06s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s
#125 GPT-5.4 none OpenAI 1 5.5 7/21 1.42s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#133 DeepSeek V3.2 none DeepSeek 1 5.2 6/21 13.8s
#139 DeepSeek V4 Flash none DeepSeek 1 5.0 5/21 26.8s
#140 Qwen3 Coder Next none Qwen 1 4.9 5/21 8.62s
#142 Mistral Small 4 none Mistral 1 4.9 5/21 630ms
#143 MiMo-V2.5 none Xiaomi 1 4.9 5/21 2.20s
#146 Laguna Xs.2 none Poolside 1 4.8 5/19 806ms

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル