Kegagalan kategori AI BENCHY

Kepatuhan instruksi

Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Alasan kegagalan terkait

Jawaban salah26 Tidak mengikuti instruksi9

Kategori terkait

Spesifik domain98 Pemecahan teka-teki55 Trik anti-AI53 Kepatuhan instruksi26 Gabungan21 Parsing dan ekstraksi data14 Kecerdasan umum6 Pemanggilan alat2

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Tes benar	Waktu respons (rata-rata)
#40	Qwen3.5-122B-A10B none	Qwen	2	4.5	0/2	585ms
#41	Qwen3.5-27B none	Qwen	2	4.5	0/2	815ms
#48	Qwen3 Coder Next none	Qwen	2	4.5	0/2	7.71s
#53	Grok 4.1 Fast none	X AI	2	10.0	0/2	923ms
#55	LFM2-24B-A2B none	Liquid	2	4.5	0/2	1.09s
#15	GPT-5.2 Chat none	OpenAI	1	6.0	1/2	5.46s
#19	GPT-5.3 Chat none	OpenAI	1	9.0	1/2	3.29s
#20	Gemini 3 Flash Preview none	Google	1	5.5	1/2	1.58s
#25	Claude Sonnet 4.6 none	Anthropic	1	5.5	1/2	1.96s
#37	Qwen3.5-Flash none	Qwen	1	5.0	1/2	8.81s
#38	Gemini 2.5 Flash none	Google	1	9.0	1/2	672ms
#42	Qwen3.5-35B-A3B none	Qwen	1	5.0	1/2	809ms
#44	GPT-5.4 none	OpenAI	1	5.5	1/2	1.07s
#45	Trinity Large Preview none	Arcee AI	1	3.5	0/2	1.09s
#46	Kimi K2.5 none	Moonshot AI	1	5.5	1/2	2.67s
#47	GPT-4o-mini none	OpenAI	1	4.5	0/2	1.27s
#49	GLM 4.7 Flash none	Z.ai	1	5.5	1/2	888ms
#50	Qwen3 Coder Next medium	Qwen	1	4.5	0/2	7.34s
#51	Mercury 2 none	Inception	1	5.5	1/2	551ms
#52	GLM 4.7 Flash medium	Z.ai	1	5.0	1/2	2.97s
#54	MiMo-V2-Flash none	Xiaomi	1	5.5	1/2	857ms

Model teratas menurut Jumlah Jawaban salah