AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY カテゴリ別失敗

コーディング: 不正解

コーディング
不正解

コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

15

総失敗数

119

最も影響を受けたモデル

Qwen3.6 Flash 2
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#86 GPT-5.5 none OpenAI 1 6.8 1/2 1.52s
#87 Mercury 2 medium Inception 1 7.2 1/2 2.29s
#90 Gemini 2.5 Flash none Google 1 6.8 1/2 810ms
#92 Gemma 4 26B A4B none Google 1 4.1 0/2 3.83s
#93 MiMo-V2-Omni none Xiaomi 1 5.1 0/2 2.75s
#98 Qwen3.5-Flash none Qwen 1 6.8 1/2 993ms
#99 GLM 5V Turbo none Z.ai 1 6.8 1/2 3.77s
#100 Seed-2.0-Lite none Bytedance Seed 1 6.8 1/2 2.95s
#103 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#104 Qwen3.5-35B-A3B none Qwen 1 6.8 1/2 1.72s
#105 Grok 4.20 Beta none X AI 1 5.5 0/1 1.14s
#106 Qwen3.5-27B none Qwen 1 7.3 1/2 1.98s
#107 Qwen3.6 27B none Qwen 1 6.8 1/2 5.75s
#108 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#109 DeepSeek V3.2 none DeepSeek 1 3.1 0/2 20.9s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル