Kegagalan kategori AI BENCHY
Kepatuhan instruksi: Format tambahan
Kepatuhan instruksi
Format tambahan
Lihat model AI mana yang paling mungkin mengalami Format tambahan di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.
Alasan kegagalan
| Peringkat | Model | Perusahaan | Jumlah Format tambahan | Skor kategori | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #92 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | 1/2 | 17.5s |
| #108 | HY3 Preview none | Tencent | 1 | 6.3 | 1/2 | 13.0s |