AI BENCHY
Your ad here

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 応答時間(平均) ↑.

表示モデル数

15

総失敗数

572

最も影響を受けたモデル

Mercury 2 13
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#3 Claude Opus 4.7 medium Anthropic 1 9.2 16/18 3.53s
#70 Qwen3.5-122B-A10B none Qwen 11 5.7 6/18 3.69s
#17 Gemini 3.1 Flash Lite Preview medium Google 4 8.2 13/18 3.74s
#63 Qwen3.5-35B-A3B none Qwen 9 6.1 7/18 3.82s
#48 Gemma 4 31B none Google 5 6.9 10/18 4.02s
#53 GLM 5 none Z.ai 9 6.6 9/18 4.23s
#75 GLM 5.1 none Z.ai 10 5.6 5/18 4.33s
#72 Hunter Alpha none OpenRouter 9 5.7 6/18 4.58s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#78 Trinity Large Preview none Arcee AI 11 5.3 5/18 5.07s
#73 Mistral Small 4 medium Mistral 8 5.7 5/18 5.64s
#36 GPT-5.3 Chat none OpenAI 5 7.7 11/18 5.88s
#5 Gemini 3 Flash Preview low Google 3 8.8 15/18 6.01s
#60 Gemma 4 26B A4B none Google 7 6.2 7/18 6.59s
#28 GPT-5.2 Chat none OpenAI 5 7.9 12/18 6.84s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル