AI BENCHY カテゴリ別失敗
指示追従: 余分な書式
指示追従
余分な書式
指示追従 で 余分な書式 が起きやすいAIモデルを確認し、弱点を早く見つけられます。
| 順位 | モデル | 企業 | 余分な書式 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #92 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | 1/2 | 17.5s |
| #108 | HY3 Preview none | Tencent | 1 | 6.3 | 1/2 | 13.0s |
AI BENCHY カテゴリ別失敗
指示追従 で 余分な書式 が起きやすいAIモデルを確認し、弱点を早く見つけられます。
| 順位 | モデル | 企業 | 余分な書式 件数 | カテゴリスコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #92 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | 1/2 | 17.5s |
| #108 | HY3 Preview none | Tencent | 1 | 6.3 | 1/2 | 13.0s |