AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
Your ad here

Kegagalan kategori AI BENCHY

Kepatuhan instruksi
Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

9

Total kegagalan

9

Model yang paling terdampak

Gemini 3.1 Flash Lite Preview 1

Alasan kegagalan terkait

Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor kategori Tes benar Waktu respons (rata-rata)
#8 Gemini 3.1 Flash Lite Preview high Google 1 9.0 1/2 70.1s
#32 GPT-5 Mini medium OpenAI 1 7.5 1/2 15.7s
#34 GPT-5 Nano medium OpenAI 1 9.0 1/2 11.9s
#50 Qwen3 Coder Next medium Qwen 1 4.5 0/2 7.34s
#30 Grok 4.1 Fast medium X AI 1 5.5 1/2 5.30s
#13 Step 3.5 Flash medium Stepfun 1 9.0 1/2 4.98s
#43 MiniMax M2.5 medium Minimax 1 8.0 1/2 4.64s
#47 GPT-4o-mini none OpenAI 1 4.5 0/2 1.27s
#45 Trinity Large Preview none Arcee AI 1 3.5 0/2 1.09s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs skor rata-rata

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang