Peringkat Pengetahuan umum x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Total Biaya ↑.

Model yang ditampilkan

Total kegagalan

133

Model yang paling terdampak

Owl Alpha 1

Alasan kegagalan

Jawaban salah133 Kesalahan API13 Tidak ada jawaban8

Kategori

Spesifik domain325 Trik anti-AI250 Pemrograman201 Pemecahan teka-teki154 Pengetahuan umum133 Kepatuhan instruksi54 Gabungan53 Kecerdasan umum36 Parsing dan ekstraksi data35 Pemanggilan alat2

133/133

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.38s
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.50s
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 37.4s
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 37.0s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
Total Tes 1 Tes Salah 1 Total Biaya $0.001 Waktu respons (rata-rata) 1.06s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
Total Tes 1 Tes Salah 1 Total Biaya $0.003 Waktu respons (rata-rata) 2.71s
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Total Tes 1 Tes Salah 1 Total Biaya $0.003 Waktu respons (rata-rata) 306ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 1.25s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 778ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 692ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Total Tes 1 Tes Salah 1 Total Biaya $0.005 Waktu respons (rata-rata) 588ms
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.006 Waktu respons (rata-rata) 2.32s
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
Total Tes 1 Tes Salah 1 Total Biaya $0.006 Waktu respons (rata-rata) 794ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
Total Tes 1 Tes Salah 1 Total Biaya $0.007 Waktu respons (rata-rata) 8.94s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
Total Tes 1 Tes Salah 1 Total Biaya $0.007 Waktu respons (rata-rata) 3.89s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pengetahuan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang