Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Laguna XS 2.1 3.8

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 30.7s
#180	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
Total Tes 2 Tes Salah 1 Total Biaya $0.010 Waktu respons (rata-rata) 1.11s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 888ms
#183	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Total Tes 2 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 804ms
#186	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 784ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
Total Tes 2 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 4.63s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
Total Tes 2 Tes Salah 1 Total Biaya $0.032 Waktu respons (rata-rata) 7.49s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
Total Tes 2 Tes Salah 1 Total Biaya $0.030 Waktu respons (rata-rata) 551ms
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
Total Tes 2 Tes Salah 1 Total Biaya $0.340 Waktu respons (rata-rata) 621ms
#197	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 649ms
#198	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
Total Tes 2 Tes Salah 1 Total Biaya $0.009 Waktu respons (rata-rata) 683ms
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
Total Tes 2 Tes Salah 1 Total Biaya $0.166 Waktu respons (rata-rata) 2.97s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.82s
#203	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Total Tes 2 Tes Salah 1 Total Biaya $0.057 Waktu respons (rata-rata) 445ms

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)