AI BENCHY
Your ad here

Kegagalan AI BENCHY

Kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Skor ↑.

Model yang ditampilkan

15

Total kegagalan

180

Model yang paling terdampak

LFM2-24B-A2B 2
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor Tes benar Waktu respons (rata-rata)
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#29 Gemini 3.1 Flash Lite Preview none Google 2 7.9 12/18 1.30s
#28 GPT-5.2 Chat none OpenAI 1 7.9 12/18 6.84s
#27 DeepSeek V3.2 medium DeepSeek 1 8.0 12/18 46.4s
#25 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#24 Gemma 4 26B A4B medium Google 1 8.0 13/18 25.0s
#23 MiMo-V2-Pro medium Xiaomi 1 8.1 12/18 12.3s
#22 Gemini 3.1 Flash Lite Preview low Google 1 8.1 13/18 3.22s
#20 Qwen3.6 Plus medium Qwen 1 8.1 13/18 15.3s
#18 GLM 5 Turbo medium Z.ai 2 8.1 12/18 17.7s
#17 Gemini 3.1 Flash Lite Preview medium Google 1 8.2 13/18 3.74s
#16 GPT-5.4 medium OpenAI 2 8.2 13/18 18.6s
#15 Gemini 2.5 Flash medium Google 1 8.2 13/18 12.1s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#13 GLM 5 medium Z.ai 1 8.4 13/18 23.3s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)