AI BENCHY
Your ad here

Kegagalan kategori AI BENCHY

Kepatuhan instruksi: Jawaban salah

Kepatuhan instruksi
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

15

Total kegagalan

44

Model yang paling terdampak

Qwen3.5-27B 2
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#67 Qwen3.5-27B none Qwen 2 4.8 0/2 815ms
#70 Qwen3.5-122B-A10B none Qwen 2 4.5 0/2 585ms
#87 Qwen3 Coder Next none Qwen 2 4.8 0/2 7.71s
#95 Grok 4.1 Fast none X AI 2 3.0 0/2 923ms
#98 LFM2-24B-A2B none Liquid 2 4.8 0/2 1.09s
#21 Gemini 3 Flash Preview none Google 1 6.4 1/2 1.58s
#28 GPT-5.2 Chat none OpenAI 1 7.5 1/2 5.46s
#33 GLM 5.1 medium Z.ai 1 6.4 1/2 7.47s
#36 GPT-5.3 Chat none OpenAI 1 8.3 1/2 3.29s
#42 Claude Sonnet 4.6 none Anthropic 1 6.5 1/2 1.96s
#48 Gemma 4 31B none Google 1 6.5 1/2 2.84s
#55 MiMo-V2-Omni none Xiaomi 1 6.5 1/2 4.18s
#58 GLM 5V Turbo none Z.ai 1 6.5 1/2 1.97s
#59 Qwen3.5-Flash none Qwen 1 6.3 1/2 8.81s
#60 Gemma 4 26B A4B none Google 1 4.4 0/2 1.08s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang