AI BENCHY
Advertise here

AI BENCHY カテゴリ別失敗

反AIトリック: 不正解

反AIトリック
不正解

反AIトリック で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

15

総失敗数

245

最も影響を受けたモデル

Gemini 2.5 Flash 4
順位 モデル 企業 不正解 件数 カテゴリスコア 正解テスト 応答時間(平均)
#48 Gemini 3 Flash Preview none Google 1 8.3 3/4 1.25s
#50 Gemini 3.1 Flash Lite Preview low Google 1 8.3 3/4 2.12s
#52 Claude Sonnet 4.6 medium Anthropic 1 6.5 2/4 2.98s
#53 Gemini 3.1 Flash Lite high Google 1 8.7 3/4 37.2s
#54 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s
#57 Step 3.7 Flash low Stepfun 1 8.7 3/4 4.02s
#58 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#59 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#60 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#63 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#65 Grok 4.20 medium X AI 1 8.2 3/4 3.95s
#70 GPT-5.4 Nano medium OpenAI 1 8.3 3/4 4.52s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.6 2/4 74.7s
#76 Kimi K2.5 medium Moonshot AI 1 7.3 2/4 51.4s
#77 Claude Sonnet 4.6 none Anthropic 1 4.8 1/4 2.94s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル

推定無駄コスト 上位モデル