Peringkat Pengetahuan umum x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

133

Model yang paling terdampak

Qwen3.7 Max 1

Alasan kegagalan

Jawaban salah133 Kesalahan API13 Tidak ada jawaban8

Kategori

Spesifik domain325 Trik anti-AI250 Pemrograman201 Pemecahan teka-teki154 Pengetahuan umum133 Kepatuhan instruksi54 Gabungan53 Kecerdasan umum36 Parsing dan ekstraksi data35 Pemanggilan alat2

133/133

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
Total Tes 1 Tes Salah 1 Total Biaya $0.045 Waktu respons (rata-rata) 180.9s
#60	Qwen3.7 Plus none	Qwen	1	3.0	$0.023	0/1	1.21s
Total Tes 1 Tes Salah 1 Total Biaya $0.023 Waktu respons (rata-rata) 1.21s
#61	GLM 5.2 none	Z.ai	1	3.0	$0.076	0/1	3.41s
Total Tes 1 Tes Salah 1 Total Biaya $0.076 Waktu respons (rata-rata) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	3.0	$0.043	0/1	1.96s
Total Tes 1 Tes Salah 1 Total Biaya $0.043 Waktu respons (rata-rata) 1.96s
#64	GLM 5.1 medium	Z.ai	1	3.0	$0.292	0/1	29.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.292 Waktu respons (rata-rata) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
Total Tes 1 Tes Salah 1 Total Biaya $0.583 Waktu respons (rata-rata) 341.8s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
Total Tes 1 Tes Salah 1 Total Biaya $1.079 Waktu respons (rata-rata) 4.87s
#67	Gemini 3 Flash Preview none	Google	1	3.0	$0.025	0/1	1.07s
Total Tes 1 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 1.07s
#68	Qwen3.7 Max none	Qwen	1	3.0	$0.054	0/1	856ms
Total Tes 1 Tes Salah 1 Total Biaya $0.054 Waktu respons (rata-rata) 856ms
#70	Qwen3.5-Flash medium	Qwen	1	3.0	$0.080	0/1	49.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.080 Waktu respons (rata-rata) 49.0s
#71	Gemini 3.5 Flash minimal	Google	1	3.0	$0.108	0/1	1.76s
Total Tes 1 Tes Salah 1 Total Biaya $0.108 Waktu respons (rata-rata) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
Total Tes 1 Tes Salah 1 Total Biaya $0.033 Waktu respons (rata-rata) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.683 Waktu respons (rata-rata) 234.2s
#74	Hy3 preview high	Tencent	1	3.0	$0.059	0/1	47.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.059 Waktu respons (rata-rata) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.146	0/1	32.9s
Total Tes 1 Tes Salah 1 Total Biaya $0.146 Waktu respons (rata-rata) 32.9s

←

1 3 4 5 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pengetahuan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang