Peringkat Pengetahuan umum x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

133

Model yang paling terdampak

Qwen3.7 Max 1

Alasan kegagalan

Jawaban salah133 Kesalahan API13 Tidak ada jawaban8

Kategori

Spesifik domain325 Trik anti-AI250 Pemrograman201 Pemecahan teka-teki154 Pengetahuan umum133 Kepatuhan instruksi54 Gabungan53 Kecerdasan umum36 Parsing dan ekstraksi data35 Pemanggilan alat2

133/133

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
Total Tes 1 Tes Salah 1 Total Biaya $0.079 Waktu respons (rata-rata) 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
Total Tes 1 Tes Salah 1 Total Biaya $0.122 Waktu respons (rata-rata) 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
Total Tes 1 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
Total Tes 1 Tes Salah 1 Total Biaya $0.058 Waktu respons (rata-rata) 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
Total Tes 1 Tes Salah 1 Total Biaya $0.007 Waktu respons (rata-rata) 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
Total Tes 1 Tes Salah 1 Total Biaya $0.027 Waktu respons (rata-rata) 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
Total Tes 1 Tes Salah 1 Total Biaya $0.017 Waktu respons (rata-rata) 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
Total Tes 1 Tes Salah 1 Total Biaya $0.028 Waktu respons (rata-rata) 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.032 Waktu respons (rata-rata) 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
Total Tes 1 Tes Salah 1 Total Biaya $0.047 Waktu respons (rata-rata) 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
Total Tes 1 Tes Salah 1 Total Biaya $0.038 Waktu respons (rata-rata) 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
Total Tes 1 Tes Salah 1 Total Biaya $0.020 Waktu respons (rata-rata) 295ms

←

1 6 7 8 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pengetahuan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang