AI BENCHY
Advertise here

Kegagalan kategori AI BENCHY

Kepatuhan instruksi: Tidak mengikuti instruksi

Kepatuhan instruksi
Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

11

Total kegagalan

11

Model yang paling terdampak

Granite 4.1 8B 1
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor kategori Tes benar Waktu respons (rata-rata)
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#129 MiniMax M2.5 medium Minimax 1 7.5 1/2 621ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#151 Trinity Large Preview none Arcee AI 1 3.5 0/2 822ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 1.37s
#86 Grok 4.1 Fast medium X AI 1 6.5 1/2 4.63s
#62 Step 3.5 Flash medium Stepfun 1 8.3 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 1 8.3 1/2 4.99s
#105 Nemotron 3 Super medium NVIDIA 1 7.3 1/2 6.97s
#130 MiniMax M2.7 medium Minimax 1 3.8 0/2 12.8s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang