Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Metrik ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.5

Model terbaik

Grok 4.1 Fast 3.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi18 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

210/210

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
Total Tes 2 Tes Salah 1 Total Biaya $0.073 Waktu respons (rata-rata) 8.81s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
Total Tes 2 Tes Salah 1 Total Biaya $0.106 Waktu respons (rata-rata) 809ms
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
Total Tes 2 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 728ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
Total Tes 2 Tes Salah 1 Total Biaya $0.247 Waktu respons (rata-rata) 513ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Total Tes 2 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 690ms
#164	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
Total Tes 2 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 1.72s
#166	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 7.78s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
Total Tes 2 Tes Salah 1 Total Biaya $0.010 Waktu respons (rata-rata) 1.11s
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Total Tes 2 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 804ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 784ms
#187	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
Total Tes 2 Tes Salah 1 Total Biaya $0.032 Waktu respons (rata-rata) 7.49s
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 649ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Total Tes 2 Tes Salah 1 Total Biaya $0.057 Waktu respons (rata-rata) 445ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
Total Tes 2 Tes Salah 1 Total Biaya $0.001 Waktu respons (rata-rata) 752ms
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
Total Tes 2 Tes Salah 1 Total Biaya $0.096 Waktu respons (rata-rata) 4.12s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)