AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失敗分析

API エラー の失敗

どのAIモデルで API エラー が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

15

総失敗数

31

最も影響を受けたモデル

LFM2-24B-A2B 4
順位 モデル 企業 API エラー 件数 スコア 正解テスト 応答時間(平均)
#143 LFM2-24B-A2B none Liquid 4 4.2 2/16 811ms
#121 gpt-oss-120b none OpenAI 3 5.2 5/19 21.9s
#14 Gemma 4 31B medium Google 2 8.2 14/19 28.7s
#66 Gemma 4 31B none Google 2 6.9 10/19 3.86s
#76 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.80s
#109 Mistral Small 4 medium Mistral 2 5.5 5/19 5.65s
#135 Hy3 preview none Tencent 2 4.6 4/19 13.0s
#10 Gemini 3 PRO Preview medium Google 1 8.4 15/19 9.06s
#22 Hy3 preview high Tencent 1 8.0 15/19 56.8s
#28 Qwen3.6 Plus medium Qwen 1 7.9 13/19 17.1s
#34 Hy3 preview medium Tencent 1 7.8 13/19 16.0s
#36 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s
#39 Hy3 preview low Tencent 1 7.7 14/19 24.6s
#45 Qwen3.5-Flash medium Qwen 1 7.6 11/19 65.8s
#47 GLM 5.1 medium Z.ai 1 7.6 12/19 24.4s

API エラー 件数 上位モデル

API エラー 件数 対 スコア

応答時間(平均) 上位モデル