Peringkat Pengetahuan umum x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Total Biaya ↓.

Model yang ditampilkan

Total kegagalan

133

Model yang paling terdampak

GPT-5.5 1

Alasan kegagalan

Jawaban salah133 Kesalahan API13 Tidak ada jawaban8

Kategori

Spesifik domain325 Trik anti-AI250 Pemrograman201 Pemecahan teka-teki154 Pengetahuan umum133 Kepatuhan instruksi54 Gabungan53 Kecerdasan umum36 Parsing dan ekstraksi data35 Pemanggilan alat2

133/133

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Total Tes 1 Tes Salah 1 Total Biaya $3.679 Waktu respons (rata-rata) 37.9s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
Total Tes 1 Tes Salah 1 Total Biaya $2.053 Waktu respons (rata-rata) 63.2s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
Total Tes 1 Tes Salah 1 Total Biaya $1.418 Waktu respons (rata-rata) 30.1s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Total Tes 1 Tes Salah 1 Total Biaya $1.210 Waktu respons (rata-rata) 14.0s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
Total Tes 1 Tes Salah 1 Total Biaya $1.079 Waktu respons (rata-rata) 4.87s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.960 Waktu respons (rata-rata) 60.6s
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.927 Waktu respons (rata-rata) 53.5s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.907 Waktu respons (rata-rata) 10.1s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.889 Waktu respons (rata-rata) 130.3s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.740 Waktu respons (rata-rata) 14.4s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.683 Waktu respons (rata-rata) 234.2s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Total Tes 1 Tes Salah 1 Total Biaya $0.679 Waktu respons (rata-rata) 2.25s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.614 Waktu respons (rata-rata) 44.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.609 Waktu respons (rata-rata) 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
Total Tes 1 Tes Salah 1 Total Biaya $0.588 Waktu respons (rata-rata) 52.9s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pengetahuan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang