Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Laguna XS 2.1 3.8

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#158	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 1.92s
#160	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
Total Tes 2 Tes Salah 1 Total Biaya $0.068 Waktu respons (rata-rata) 1.03s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Total Tes 2 Tes Salah 1 Total Biaya $0.127 Waktu respons (rata-rata) 2.67s
#162	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Total Tes 2 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 690ms
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Total Tes 2 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 4.26s
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
Total Tes 2 Tes Salah 1 Total Biaya $0.142 Waktu respons (rata-rata) 1.23s
#167	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
Total Tes 2 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 1.86s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 5.36s
#170	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
Total Tes 2 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 1.72s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Total Tes 2 Tes Salah 1 Total Biaya $0.022 Waktu respons (rata-rata) 380ms
#172	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 7.78s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
Total Tes 2 Tes Salah 1 Total Biaya $0.096 Waktu respons (rata-rata) 1.38s
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 751ms
#175	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
Total Tes 2 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 514ms
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
Total Tes 2 Tes Salah 1 Total Biaya $0.047 Waktu respons (rata-rata) 2.13s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)