AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY 失敗分析

回答なし の失敗

どのAIモデルで 回答なし が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

6

総失敗数

7

最も影響を受けたモデル

GLM 4.7 Flash 2
順位 モデル 企業 回答なし 件数 平均スコア 正解テスト 応答時間(平均)
#52 GLM 4.7 Flash medium Z.ai 2 3.1 4/16 36.8s
#14 GLM 5 medium Z.ai 1 7.4 11/16 16.2s
#27 GPT-5.2 medium OpenAI 1 6.5 10/16 15.3s
#28 Kimi K2.5 medium Moonshot AI 1 6.4 9/16 69.8s
#30 Grok 4.1 Fast medium X AI 1 6.2 9/16 26.3s
#35 Qwen3.5-35B-A3B medium Qwen 1 5.5 8/16 43.9s

回答なし 件数 上位モデル

回答なし 件数 vs 平均スコア

応答時間(平均) 上位モデル