Kegagalan kategori AI BENCHY

Kecerdasan umum

Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Alasan kegagalan terkait

Tidak mengikuti instruksi32 Jawaban salah6 Kedaluwarsa3

Kategori terkait

Spesifik domain98 Pemecahan teka-teki55 Trik anti-AI53 Kepatuhan instruksi26 Gabungan21 Parsing dan ekstraksi data14 Kecerdasan umum6 Pemanggilan alat2

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Tes benar	Waktu respons (rata-rata)
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.0	0/1	2.26s
#38	Gemini 2.5 Flash none	Google	1	5.0	0/1	615ms
#44	GPT-5.4 none	OpenAI	1	3.0	0/1	1.78s
#47	GPT-4o-mini none	OpenAI	1	3.0	0/1	909ms
#49	GLM 4.7 Flash none	Z.ai	1	3.0	0/1	1.59s
#52	GLM 4.7 Flash medium	Z.ai	1	10.0	0/1	18.1s

Model teratas menurut Jumlah Jawaban salah