AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY カテゴリ別失敗

コーディング: 不正解

コーディング
不正解

コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

15

総失敗数

119

最も影響を受けたモデル

Qwen3.6 Flash 2
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#52 Gemini 3.1 Flash Lite Preview none Google 1 6.8 1/2 1.06s
#53 Gemini 3.1 Flash Lite low Google 1 6.8 1/2 1.71s
#55 GPT-5.3 Chat none OpenAI 1 6.9 1/2 10.5s
#56 MiMo-V2.5 medium Xiaomi 1 6.9 1/2 64.5s
#59 GLM 5V Turbo medium Z.ai 1 6.8 1/2 54.8s
#61 GPT-5.4 Mini medium OpenAI 1 7.5 1/2 73.3s
#67 GPT-5.4 Nano medium OpenAI 1 6.8 1/2 21.1s
#70 MiMo-V2-Flash medium Xiaomi 1 4.1 0/2 7.20s
#71 Seed-2.0-Mini medium Bytedance Seed 1 6.8 1/2 220.5s
#73 DeepSeek V3.2 medium DeepSeek 1 3.9 0/2 185.0s
#75 MiMo-V2-Omni medium Xiaomi 1 3.4 0/2 183.9s
#77 Gemma 4 31B none Google 1 6.8 1/2 14.8s
#78 Gemini 3.1 Flash Lite minimal Google 1 6.8 1/2 951ms
#82 Laguna Xs.2 medium Poolside 1 6.3 0/1 14.4s
#85 Gemini 3.1 Flash Lite none Google 1 6.8 1/2 1.13s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル