AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Pemanggilan alat: Tidak mengikuti instruksi

Pemanggilan alat
Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Pemanggilan alat, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

6

Total kegagalan

6

Model yang paling terdampak

Nemotron 3 Super 1
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor kategori Tes benar Waktu respons (rata-rata)
#88 Nemotron 3 Super none NVIDIA 1 4.7 0/1 16.0s
#47 Grok 4.20 medium X AI 1 3.0 0/1 13.7s
#25 Grok 4.20 Beta medium X AI 1 3.0 0/1 12.4s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 12.0s
#44 GPT-5.4 Mini medium OpenAI 1 4.7 0/1 9.62s
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.32s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang