Peringkat Pengetahuan umum x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

133

Model yang paling terdampak

Qwen3.7 Max 1

Alasan kegagalan

Jawaban salah133 Kesalahan API13 Tidak ada jawaban8

Kategori

Spesifik domain325 Trik anti-AI250 Pemrograman201 Pemecahan teka-teki154 Pengetahuan umum133 Kepatuhan instruksi54 Gabungan53 Kecerdasan umum36 Parsing dan ekstraksi data35 Pemanggilan alat2

133/133

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#126	DeepSeek V3.2 none	DeepSeek	1	3.0	$0.017	0/1	17.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.017 Waktu respons (rata-rata) 17.2s
#127	MiniMax M2.7 medium	Minimax	1	3.0	$0.104	0/1	22.8s
Total Tes 1 Tes Salah 1 Total Biaya $0.104 Waktu respons (rata-rata) 22.8s
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
Total Tes 1 Tes Salah 1 Total Biaya $0.031 Waktu respons (rata-rata) 414ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
Total Tes 1 Tes Salah 1 Total Biaya $0.007 Waktu respons (rata-rata) 397ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
Total Tes 1 Tes Salah 1 Total Biaya $0.009 Waktu respons (rata-rata) 601ms
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 37.4s
#133	Mistral Small 4 medium	Mistral	1	3.0	$0.068	0/1	5.92s
Total Tes 1 Tes Salah 1 Total Biaya $0.068 Waktu respons (rata-rata) 5.92s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
Total Tes 1 Tes Salah 1 Total Biaya $0.007 Waktu respons (rata-rata) 3.89s
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.006 Waktu respons (rata-rata) 2.32s
#137	Trinity Large Preview none	Arcee AI	1	3.0	$0.008	0/1	777ms
Total Tes 1 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 777ms
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
Total Tes 1 Tes Salah 1 Total Biaya $0.006 Waktu respons (rata-rata) 794ms
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 37.0s
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 692ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
Total Tes 1 Tes Salah 1 Total Biaya $0.007 Waktu respons (rata-rata) 8.94s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
Total Tes 1 Tes Salah 1 Total Biaya $0.001 Waktu respons (rata-rata) 1.06s

←

1 7 8 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pengetahuan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang