AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

3

総失敗数

1092

最も影響を受けたモデル

Mercury 2 15
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#1 Gemini 3 Flash Preview medium Google 1 9.8 19/20 16.7s
#2 Gemini 3.5 Flash high Google 1 9.6 19/20 8.30s
#32 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル