Peringkat Pengetahuan umum x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

133

Model yang paling terdampak

Qwen3.7 Max 1

Alasan kegagalan

Jawaban salah133 Kesalahan API13 Tidak ada jawaban8

Kategori

Spesifik domain325 Trik anti-AI250 Pemrograman201 Pemecahan teka-teki154 Pengetahuan umum133 Kepatuhan instruksi54 Gabungan53 Kecerdasan umum36 Parsing dan ekstraksi data35 Pemanggilan alat2

133/133

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.523 Waktu respons (rata-rata) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.907 Waktu respons (rata-rata) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Total Tes 1 Tes Salah 1 Total Biaya $3.679 Waktu respons (rata-rata) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.740 Waktu respons (rata-rata) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.960 Waktu respons (rata-rata) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Total Tes 1 Tes Salah 1 Total Biaya $0.679 Waktu respons (rata-rata) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.228 Waktu respons (rata-rata) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
Total Tes 1 Tes Salah 1 Total Biaya $0.159 Waktu respons (rata-rata) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Total Tes 1 Tes Salah 1 Total Biaya $1.210 Waktu respons (rata-rata) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.175 Waktu respons (rata-rata) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
Total Tes 1 Tes Salah 1 Total Biaya $0.393 Waktu respons (rata-rata) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.323 Waktu respons (rata-rata) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.548 Waktu respons (rata-rata) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.027 Waktu respons (rata-rata) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
Total Tes 1 Tes Salah 1 Total Biaya $0.379 Waktu respons (rata-rata) 2.76s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pengetahuan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang