AI BENCHY
Your ad here

Kegagalan kategori AI BENCHY

Pemanggilan alat: Tidak mengikuti instruksi

Pemanggilan alat
Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Pemanggilan alat, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

6

Total kegagalan

6

Model yang paling terdampak

Grok 4.20 Beta 1
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor kategori Tes benar Waktu respons (rata-rata)
#25 Grok 4.20 Beta medium X AI 1 3.0 0/1 12.4s
#44 GPT-5.4 Mini medium OpenAI 1 4.7 0/1 9.62s
#47 Grok 4.20 medium X AI 1 3.0 0/1 13.7s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 12.0s
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.32s
#88 Nemotron 3 Super none NVIDIA 1 4.7 0/1 16.0s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang