Kegagalan kategori AI BENCHY
Pemanggilan alat: Tidak mengikuti instruksi
Pemanggilan alat
Tidak mengikuti instruksi
Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Pemanggilan alat, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.
Alasan kegagalan
| Peringkat | Model | Perusahaan | Jumlah Tidak mengikuti instruksi | Skor kategori | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |
| #47 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |