AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY 失敗分析

余分な書式 の失敗

どのAIモデルで 余分な書式 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 応答時間(平均) ↑.

表示モデル数

6

総失敗数

13

最も影響を受けたモデル

MiMo-V2-Flash 1
順位 モデル 企業 余分な書式 件数 平均スコア 正解テスト 応答時間(平均)
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s

余分な書式 件数 上位モデル

余分な書式 件数 vs 平均スコア

応答時間(平均) 上位モデル