AI BENCHY
Advertise here

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

15

総失敗数

1204

最も影響を受けたモデル

Mercury 2 16
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#132 Mistral Small 4 medium Mistral 12 5.3 5/21 9.40s
#139 DeepSeek V4 Flash none DeepSeek 12 5.0 5/21 26.8s
#151 Trinity Large Preview none Arcee AI 12 4.6 4/21 2.98s
#159 Ling-2.6-1T none Inclusionai 12 4.3 3/21 7.72s
#90 Gemini 3.1 Flash Lite none Google 11 6.4 9/21 1.06s
#91 GPT-5.5 none OpenAI 11 6.4 10/21 1.89s
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#118 Qwen3.6 27B none Qwen 11 5.6 7/21 3.72s
#120 Mimo V2 PRO none Xiaomi 11 5.6 7/21 2.27s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#74 Qwen3.6 Max Preview none Qwen 10 6.9 11/21 3.30s
#88 Qwen3.7 Plus none Qwen 10 6.4 10/21 2.85s
#101 Mimo V2 Omni none Xiaomi 10 6.0 8/21 2.44s
#102 Gemma 4 26B A4B none Google 10 6.0 8/21 5.91s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル