AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Pemanggilan alat: Jawaban salah

Pemanggilan alat
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemanggilan alat, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Jumlah kegagalan ↑.

Model yang ditampilkan

2

Total kegagalan

2

Model yang paling terdampak

GLM 4.7 Flash 1
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#122 GLM 4.7 Flash none Z.ai 1 2.8 0/1 7.05s
#157 Grok 4.1 Fast none X AI 1 2.8 0/1 5.51s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang