AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Kepatuhan instruksi: Format tambahan

Kepatuhan instruksi
Format tambahan

Lihat model AI mana yang paling mungkin mengalami Format tambahan di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

2

Total kegagalan

2

Model yang paling terdampak

DeepSeek V4 Flash 1
Peringkat Model Perusahaan Jumlah Format tambahan Skor kategori Tes benar Waktu respons (rata-rata)
#92 DeepSeek V4 Flash none DeepSeek 1 6.5 1/2 17.5s
#108 HY3 Preview none Tencent 1 6.3 1/2 13.0s

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang