AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

15

総失敗数

1204

最も影響を受けたモデル

Mercury 2 16
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 7 7.5 13/21 15.1s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#58 Gemini 3.1 Flash Lite Preview none Google 7 7.2 12/21 1.21s
#59 GLM 5V Turbo medium Z.ai 7 7.2 11/21 23.1s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#100 Grok Build 0.1 none X AI 7 6.0 7/19 28.7s
#129 MiniMax M2.5 medium Minimax 7 5.3 5/21 65.4s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 7 4.6 4/19 17.1s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#45 GPT-5.4 Mini medium OpenAI 6 7.5 12/21 22.3s
#65 Grok 4.20 medium X AI 6 7.1 12/21 27.7s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル