AI BENCHY カテゴリ別失敗
指示追従: 余分な書式
指示追従
余分な書式
指示追従 で 余分な書式 が起きやすいAIモデルを確認し、弱点を早く見つけられます。
失敗理由
2/2
モデルを絞り込む
現在の検索条件とフィルターに一致するモデルはありません。
| 順位 | モデル | 企業 | 余分な書式 件数 | カテゴリスコア | 合計コスト | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|---|
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | $0.007 | 1/2 | 17.5s |
| #158 | Hy3 preview none | Tencent | 1 | 6.3 | $0.003 | 1/2 | 13.0s |