Kegagalan kategori AI BENCHY
Kepatuhan instruksi: Kedaluwarsa
Kepatuhan instruksi
Kedaluwarsa
Lihat model AI mana yang paling mungkin mengalami Kedaluwarsa di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.
Alasan kegagalan
| Peringkat | Model | Perusahaan | Jumlah Kedaluwarsa | Skor kategori | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #97 | Qwen3.5-9B medium | Qwen | 1 | 6.4 | 1/2 | 17.1s |