AI BENCHY
Advertise here

AI BENCHY 失敗分析

指示に従っていない の失敗

どのAIモデルで 指示に従っていない が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: スコア ↓.

表示モデル数

15

総失敗数

215

最も影響を受けたモデル

Gemini 3.5 Flash 1
順位 モデル 企業 指示に従っていない 件数 スコア 正解テスト 応答時間(平均)
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#100 Grok Build 0.1 none X AI 2 6.0 7/19 28.7s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#105 Nemotron 3 Super medium NVIDIA 3 5.8 8/21 32.0s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#109 GLM 5V Turbo none Z.ai 2 5.8 8/21 2.99s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 2 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 2 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 2 5.7 6/18 4.70s
#117 Qwen3.5-35B-A3B none Qwen 2 5.6 7/21 3.37s

指示に従っていない 件数 上位モデル

指示に従っていない 件数 対 スコア

応答時間(平均) 上位モデル