AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Pemanggilan alat: Tidak mengikuti instruksi

Pemanggilan alat
Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Pemanggilan alat, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

6

Total kegagalan

6

Model yang paling terdampak

GPT-5.4 Mini 1
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor kategori Tes benar Waktu respons (rata-rata)
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.32s
#44 GPT-5.4 Mini medium OpenAI 1 4.7 0/1 9.62s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 12.0s
#25 Grok 4.20 Beta medium X AI 1 3.0 0/1 12.4s
#47 Grok 4.20 medium X AI 1 3.0 0/1 13.7s
#88 Nemotron 3 Super none NVIDIA 1 4.7 0/1 16.0s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang