Kegagalan kategori AI BENCHY
Pemanggilan alat: Jawaban salah
Pemanggilan alat
Jawaban salah
Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemanggilan alat, agar Anda bisa menemukan titik lemahnya lebih cepat.
Alasan kegagalan
| Peringkat | Model | Perusahaan | Jumlah Jawaban salah | Skor kategori | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 2.8 | 0/1 | 7.05s |
| #95 | Grok 4.1 Fast none | X AI | 1 | 2.8 | 0/1 | 5.51s |