AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY カテゴリ別失敗

コーディング: 不正解

コーディング
不正解

コーディング で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

15

総失敗数

119

最も影響を受けたモデル

Qwen3.6 Flash 2
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#110 MiMo-V2-Pro none Xiaomi 1 6.8 1/2 2.65s
#114 GPT-5.4 none OpenAI 1 6.8 1/2 1.99s
#115 MiMo-V2.5-Pro none Xiaomi 1 5.0 0/2 1.80s
#117 Qwen3.6 Flash none Qwen 1 6.6 1/2 2.34s
#118 MiniMax M2.5 medium Minimax 1 3.5 0/2 125.8s
#119 gpt-oss-120b none OpenAI 1 4.3 0/1 9.57s
#120 Grok 4.20 none X AI 1 3.4 0/1 1.22s
#122 Elephant Alpha medium Openrouter 1 4.0 0/2 1.30s
#124 Laguna M.1 none Poolside 1 7.5 0/1 2.93s
#126 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 3.3 0/1 38.1s
#128 Kimi K2.5 none Moonshot AI 1 6.8 1/2 36.0s
#129 Laguna Xs.2 none Poolside 1 2.5 0/1 1.96s
#131 Elephant Alpha none Openrouter 1 4.7 0/2 1.39s
#136 MiMo-V2.5 none Xiaomi 1 6.8 1/2 3.74s
#137 GPT-5.4 Mini none OpenAI 1 6.8 1/2 1.01s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル