AI BENCHY
Advertise here

AI BENCHY カテゴリ別失敗

ドメイン特化: 不正解

ドメイン特化
不正解

ドメイン特化 で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

15

総失敗数

314

最も影響を受けたモデル

Qwen3.6 Max Preview 3
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#9 GPT-5.5 medium OpenAI 2 5.3 1/3 164.1s
#10 Claude Opus 4.8 medium Anthropic 2 5.3 1/3 14.2s
#12 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s
#13 Grok 4.20 Beta medium X AI 2 5.3 1/3 21.3s
#15 GPT-5.3-Codex medium OpenAI 2 5.9 1/3 64.3s
#16 Gemini 3 Flash Preview low Google 2 5.3 1/3 8.05s
#17 GLM 5 medium Z.ai 2 3.5 0/3 0ms
#19 Seed-2.0-Lite medium Bytedance Seed 2 5.9 1/3 88.7s
#21 GPT-5.4 medium OpenAI 2 5.3 1/3 74.3s
#23 GLM 5 Turbo medium Z.ai 2 2.9 0/3 71.1s
#24 GPT-5.2 Chat none OpenAI 2 5.3 1/3 17.8s
#28 Gemini 2.5 Flash medium Google 2 5.9 1/3 37.3s
#33 Hy3 preview medium Tencent 2 5.3 1/3 22.3s
#35 Gemini 3 PRO Preview medium Google 2 5.3 1/3 7.01s
#37 Gemma 4 26B A4B medium Google 2 2.9 0/3 23.6s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル