AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
Your ad here

Kegagalan kategori AI BENCHY

Gabungan
Pemanggilan alat tidak valid

Lihat model AI mana yang paling mungkin mengalami Pemanggilan alat tidak valid di Gabungan, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

4

Total kegagalan

4

Model yang paling terdampak

GLM 4.7 Flash 1

Kategori terkait

Peringkat Model Perusahaan Jumlah Pemanggilan alat tidak valid Skor kategori Tes benar Waktu respons (rata-rata)
#49 GLM 4.7 Flash none Z.ai 1 10.0 0/1 3.22s
#43 MiniMax M2.5 medium Minimax 1 10.0 0/1 60.4s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/1 65.6s
#33 DeepSeek V3.2 none DeepSeek 1 8.0 0/1 115.9s

Model teratas menurut Jumlah Pemanggilan alat tidak valid

Jumlah Pemanggilan alat tidak valid vs skor rata-rata

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang