AI BENCHY
Advertise here

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

15

総失敗数

1092

最も影響を受けたモデル

Mercury 2 15
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#22 Hy3 preview high Tencent 3 8.0 16/20 56.8s
#25 Qwen3.5-27B medium Qwen 3 7.9 13/20 60.8s
#40 MiMo-V2.5-Pro medium Xiaomi 3 7.6 12/20 21.8s
#46 Claude Sonnet 4.6 medium Anthropic 3 7.6 13/20 15.7s
#48 Gemini 3.1 Flash Lite high Google 3 7.5 11/18 62.0s
#54 Kimi K2.6 medium Moonshot AI 3 7.4 12/20 54.1s
#57 GPT-5.2 medium OpenAI 3 7.4 12/20 16.4s
#63 Claude Opus 4.6 medium Anthropic 3 7.2 12/20 25.4s
#70 Qwen3.5-35B-A3B medium Qwen 3 7.0 10/20 69.4s
#151 Qwen3.5-9B medium Qwen 3 4.2 3/20 80.1s
#3 Gemini 3.5 Flash low Google 2 9.3 18/20 2.98s
#4 Gemini 3.1 Pro Preview medium Google 2 9.3 18/20 20.8s
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.50s
#23 Gemma 4 31B medium Google 2 8.0 14/20 35.5s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル