Peringkat Pemrograman x Jawaban salah

Kegagalan kategori AI BENCHY

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemrograman, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

230

Model yang paling terdampak

Qwen3.6 Flash 3

Alasan kegagalan

Jawaban salah230 Kesalahan API43 Kedaluwarsa25 Tidak ada jawaban18 Tidak mengikuti instruksi16 Format tambahan12

Kategori

Spesifik domain368 Trik anti-AI270 Pemrograman230 Pemecahan teka-teki173 Pengetahuan umum150 Gabungan58 Kepatuhan instruksi56 Kecerdasan umum49 Parsing dan ekstraksi data36 Pemanggilan alat3

134/134

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
Total Tes 3 Tes Salah 1 Total Biaya $0.349 Waktu respons (rata-rata) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
Total Tes 3 Tes Salah 1 Total Biaya $1.054 Waktu respons (rata-rata) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
Total Tes 3 Tes Salah 1 Total Biaya $3.679 Waktu respons (rata-rata) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Total Tes 3 Tes Salah 1 Total Biaya $0.960 Waktu respons (rata-rata) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
Total Tes 3 Tes Salah 1 Total Biaya $0.679 Waktu respons (rata-rata) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
Total Tes 3 Tes Salah 1 Total Biaya $0.179 Waktu respons (rata-rata) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
Total Tes 3 Tes Salah 1 Total Biaya $1.210 Waktu respons (rata-rata) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Total Tes 3 Tes Salah 1 Total Biaya $0.175 Waktu respons (rata-rata) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
Total Tes 3 Tes Salah 1 Total Biaya $0.393 Waktu respons (rata-rata) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
Total Tes 3 Tes Salah 1 Total Biaya $0.376 Waktu respons (rata-rata) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Total Tes 3 Tes Salah 1 Total Biaya $1.696 Waktu respons (rata-rata) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
Total Tes 3 Tes Salah 1 Total Biaya $0.027 Waktu respons (rata-rata) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
Total Tes 3 Tes Salah 1 Total Biaya $0.379 Waktu respons (rata-rata) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
Total Tes 3 Tes Salah 1 Total Biaya $0.852 Waktu respons (rata-rata) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.177 Waktu respons (rata-rata) 108.6s

←

1 5 6 7 9

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemrograman: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang