Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.6

Model terbaik

Laguna XS 2.1 3.8

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi19 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

216/216

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
Total Tes 2 Tes Salah 0 Total Biaya $0.922 Waktu respons (rata-rata) 3.10s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Total Tes 2 Tes Salah 0 Total Biaya $0.643 Waktu respons (rata-rata) 2.62s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
Total Tes 2 Tes Salah 0 Total Biaya $0.237 Waktu respons (rata-rata) 11.6s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
Total Tes 2 Tes Salah 0 Total Biaya $1.006 Waktu respons (rata-rata) 7.00s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
Total Tes 2 Tes Salah 0 Total Biaya $0.515 Waktu respons (rata-rata) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
Total Tes 2 Tes Salah 0 Total Biaya $0.604 Waktu respons (rata-rata) 5.51s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
Total Tes 2 Tes Salah 0 Total Biaya $0.817 Waktu respons (rata-rata) 4.26s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
Total Tes 2 Tes Salah 0 Total Biaya $0.391 Waktu respons (rata-rata) 6.17s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
Total Tes 2 Tes Salah 0 Total Biaya $3.112 Waktu respons (rata-rata) 7.66s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
Total Tes 2 Tes Salah 0 Total Biaya $1.055 Waktu respons (rata-rata) 2.14s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
Total Tes 2 Tes Salah 0 Total Biaya $0.234 Waktu respons (rata-rata) 7.26s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
Total Tes 2 Tes Salah 0 Total Biaya $0.267 Waktu respons (rata-rata) 16.1s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
Total Tes 2 Tes Salah 0 Total Biaya $0.405 Waktu respons (rata-rata) 7.54s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
Total Tes 2 Tes Salah 0 Total Biaya $0.187 Waktu respons (rata-rata) 7.90s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
Total Tes 2 Tes Salah 0 Total Biaya $0.676 Waktu respons (rata-rata) 1.43s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)