AI BENCHY
Advertise here

Kegagalan AI BENCHY

Kegagalan Pemanggilan alat tidak valid

Lihat model AI mana yang paling sering mengalami Pemanggilan alat tidak valid, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

9

Total kegagalan

26

Model yang paling terdampak

Granite 4.1 8B 1
Peringkat Model Perusahaan Jumlah Pemanggilan alat tidak valid Skor Tes benar Waktu respons (rata-rata)
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#112 GLM 5.1 none Z.ai 1 5.7 7/21 4.10s
#118 Qwen3.6 27B none Qwen 1 5.6 7/21 3.72s
#119 Cobuddy medium Baidu 1 5.6 7/21 39.9s
#127 Grok 4.20 none X AI 1 5.4 6/18 1.11s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#59 GLM 5V Turbo medium Z.ai 2 7.2 11/21 23.1s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s

Model teratas menurut Jumlah Pemanggilan alat tidak valid

Jumlah Pemanggilan alat tidak valid vs Skor

Model teratas menurut Waktu respons (rata-rata)