Kegagalan kategori AI BENCHY
Kepatuhan instruksi: Format tambahan
Kepatuhan instruksi
Format tambahan
Lihat model AI mana yang paling mungkin mengalami Format tambahan di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.
Alasan kegagalan
2/2
Filter model
Tidak ada model yang cocok dengan pencarian dan filter saat ini.
| Peringkat | Model | Perusahaan | Jumlah Format tambahan | Skor kategori | Total Biaya | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|---|
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | $0.007 | 1/2 | 17.5s |
| #158 | Hy3 preview none | Tencent | 1 | 6.3 | $0.003 | 1/2 | 13.0s |