AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
Your ad here

Kegagalan kategori AI BENCHY

Kepatuhan instruksi
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

21

Total kegagalan

26

Model yang paling terdampak

Qwen3.5-122B-A10B 2

Alasan kegagalan terkait

Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#40 Qwen3.5-122B-A10B none Qwen 2 4.5 0/2 585ms
#41 Qwen3.5-27B none Qwen 2 4.5 0/2 815ms
#48 Qwen3 Coder Next none Qwen 2 4.5 0/2 7.71s
#53 Grok 4.1 Fast none X AI 2 10.0 0/2 923ms
#55 LFM2-24B-A2B none Liquid 2 4.5 0/2 1.09s
#15 GPT-5.2 Chat none OpenAI 1 6.0 1/2 5.46s
#19 GPT-5.3 Chat none OpenAI 1 9.0 1/2 3.29s
#20 Gemini 3 Flash Preview none Google 1 5.5 1/2 1.58s
#25 Claude Sonnet 4.6 none Anthropic 1 5.5 1/2 1.96s
#37 Qwen3.5-Flash none Qwen 1 5.0 1/2 8.81s
#38 Gemini 2.5 Flash none Google 1 9.0 1/2 672ms
#42 Qwen3.5-35B-A3B none Qwen 1 5.0 1/2 809ms
#44 GPT-5.4 none OpenAI 1 5.5 1/2 1.07s
#45 Trinity Large Preview none Arcee AI 1 3.5 0/2 1.09s
#46 Kimi K2.5 none Moonshot AI 1 5.5 1/2 2.67s
#47 GPT-4o-mini none OpenAI 1 4.5 0/2 1.27s
#49 GLM 4.7 Flash none Z.ai 1 5.5 1/2 888ms
#50 Qwen3 Coder Next medium Qwen 1 4.5 0/2 7.34s
#51 Mercury 2 none Inception 1 5.5 1/2 551ms
#52 GLM 4.7 Flash medium Z.ai 1 5.0 1/2 2.97s
#54 MiMo-V2-Flash none Xiaomi 1 5.5 1/2 857ms

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs skor rata-rata

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang