Peringkat model Pemrograman

Kategori AI BENCHY

Lihat model AI mana yang paling baik di Pemrograman, mana yang tetap andal, dan di mana kesenjangan terbesar muncul.

Model yang ditampilkan

Rata-rata Skor Pemrograman

5.7

Model terbaik

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah230 Dengan alasan kegagalan Kesalahan API43 Dengan alasan kegagalan Kedaluwarsa25 Dengan alasan kegagalan Tidak ada jawaban18 Dengan alasan kegagalan Tidak mengikuti instruksi16 Dengan alasan kegagalan Format tambahan12

189/189

Peringkat	Model	Perusahaan	Skor Pemrograman	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.131 Waktu respons (rata-rata) 144.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.294 Waktu respons (rata-rata) 153.1s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.588 Waktu respons (rata-rata) 114.5s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.457 Waktu respons (rata-rata) 63.4s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.043 Waktu respons (rata-rata) 10.7s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.333 Waktu respons (rata-rata) 94.2s
#61	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.042	1/3	248.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.042 Waktu respons (rata-rata) 248.7s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.013 Waktu respons (rata-rata) 38.4s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.614 Waktu respons (rata-rata) 41.2s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.401 Waktu respons (rata-rata) 206.6s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
Total Tes 3 Tes Salah 2 Total Biaya $0.015 Waktu respons (rata-rata) 1.80s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
Total Tes 3 Tes Salah 2 Total Biaya $0.111 Waktu respons (rata-rata) 6.00s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
Total Tes 3 Tes Salah 2 Total Biaya $2.053 Waktu respons (rata-rata) 30.1s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
Total Tes 3 Tes Salah 2 Total Biaya $1.418 Waktu respons (rata-rata) 33.3s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.888 Waktu respons (rata-rata) 214.4s

Peringkat Pemrograman

Filter model

Model teratas menurut Skor Pemrograman

Skor Pemrograman vs total biaya

Model teratas menurut Waktu respons (rata-rata)