Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Kimi K2.5 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
Total Tes 2 Tes Salah 0 Total Biaya $0.237 Waktu respons (rata-rata) 11.6s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 10.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
Total Tes 2 Tes Salah 0 Total Biaya $1.046 Waktu respons (rata-rata) 9.88s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
Total Tes 2 Tes Salah 0 Total Biaya $1.361 Waktu respons (rata-rata) 9.56s
#215	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
Total Tes 1 Tes Salah 0 Total Biaya $0.020 Waktu respons (rata-rata) 9.30s
#131	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
Total Tes 2 Tes Salah 1 Total Biaya $0.073 Waktu respons (rata-rata) 8.81s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
Total Tes 2 Tes Salah 1 Total Biaya $0.200 Waktu respons (rata-rata) 8.73s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
Total Tes 2 Tes Salah 0 Total Biaya $0.187 Waktu respons (rata-rata) 7.90s
#30	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
Total Tes 2 Tes Salah 1 Total Biaya $1.694 Waktu respons (rata-rata) 7.81s
#172	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 7.78s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
Total Tes 2 Tes Salah 0 Total Biaya $3.112 Waktu respons (rata-rata) 7.66s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
Total Tes 2 Tes Salah 0 Total Biaya $0.019 Waktu respons (rata-rata) 7.63s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
Total Tes 2 Tes Salah 0 Total Biaya $0.405 Waktu respons (rata-rata) 7.54s
#94	Qwen3.6 35B A3B medium	Qwen	10.0	6.7	$0.746	2/2	7.50s
Total Tes 2 Tes Salah 0 Total Biaya $0.746 Waktu respons (rata-rata) 7.50s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
Total Tes 2 Tes Salah 1 Total Biaya $0.032 Waktu respons (rata-rata) 7.49s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)