AI BENCHY
Your ad here

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 失敗数 ↑.

表示モデル数

15

総失敗数

572

最も影響を受けたモデル

Gemini 3.1 Pro Preview 1
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#98 LFM2-24B-A2B none Liquid 9 4.1 1/16 811ms
#61 Seed-2.0-Lite none Bytedance Seed 10 6.2 8/18 2.53s
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#67 Qwen3.5-27B none Qwen 10 5.9 6/18 1.74s
#74 GLM 4.7 Flash none Z.ai 10 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 10 5.6 5/18 4.33s
#77 GLM 5 Turbo none Z.ai 10 5.5 6/18 2.94s
#79 Grok 4.20 Beta none X AI 10 5.3 4/18 1.19s
#86 GPT-5.4 Mini none OpenAI 10 5.1 5/18 1.17s
#88 Nemotron 3 Super none NVIDIA 10 5.1 4/18 8.54s
#90 Qwen3.5-9B none Qwen 10 4.8 4/18 1.47s
#70 Qwen3.5-122B-A10B none Qwen 11 5.7 6/18 3.69s
#78 Trinity Large Preview none Arcee AI 11 5.3 5/18 5.07s
#83 Mistral Small 4 none Mistral 11 5.2 5/18 665ms

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル