AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY 失敗分析

タイムアウト の失敗

どのAIモデルで タイムアウト が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 平均スコア ↓.

表示モデル数

15

総失敗数

25

最も影響を受けたモデル

Qwen3.5 Plus 2026-02-15 2
順位 モデル 企業 タイムアウト 件数 平均スコア 正解テスト 応答時間(平均)
#4 Qwen3.5 Plus 2026-02-15 medium Qwen 2 8.3 13/16 34.5s
#7 Qwen3.5-27B medium Qwen 1 8.2 12/16 52.1s
#10 Qwen3.5-122B-A10B medium Qwen 1 7.7 12/16 29.7s
#11 Claude Sonnet 4.6 medium Anthropic 1 7.7 12/16 11.2s
#14 GLM 5 medium Z.ai 1 7.4 11/16 16.2s
#18 DeepSeek V3.2 medium DeepSeek 1 7.3 11/16 39.5s
#23 Seed-2.0-Mini medium Bytedance Seed 4 6.9 10/16 65.1s
#24 Qwen3.5-Flash medium Qwen 3 6.9 10/16 70.8s
#27 GPT-5.2 medium OpenAI 1 6.5 10/16 15.3s
#28 Kimi K2.5 medium Moonshot AI 1 6.4 9/16 69.8s
#30 Grok 4.1 Fast medium X AI 1 6.2 9/16 26.3s
#32 GPT-5 Mini medium OpenAI 1 6.0 8/16 25.1s
#34 GPT-5 Nano medium OpenAI 1 5.5 7/16 47.9s
#35 Qwen3.5-35B-A3B medium Qwen 4 5.5 8/16 43.9s
#43 MiniMax M2.5 medium Minimax 2 4.7 5/16 43.0s

タイムアウト 件数 上位モデル

タイムアウト 件数 vs 平均スコア

応答時間(平均) 上位モデル