Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.5

Model terbaik

Granite 4.1 8B 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi18 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

210/210

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
Total Tes 2 Tes Salah 2 Total Biaya $0.007 Waktu respons (rata-rata) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 364ms
#165	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Total Tes 2 Tes Salah 1 Total Biaya $0.022 Waktu respons (rata-rata) 380ms
#205	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
Total Tes 2 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 439ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Total Tes 2 Tes Salah 1 Total Biaya $0.057 Waktu respons (rata-rata) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
Total Tes 2 Tes Salah 1 Total Biaya $0.247 Waktu respons (rata-rata) 513ms
#169	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
Total Tes 2 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
Total Tes 2 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 541ms
#189	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
Total Tes 2 Tes Salah 1 Total Biaya $0.030 Waktu respons (rata-rata) 551ms
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
Total Tes 2 Tes Salah 0 Total Biaya $0.017 Waktu respons (rata-rata) 590ms
#190	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
Total Tes 2 Tes Salah 1 Total Biaya $0.340 Waktu respons (rata-rata) 621ms
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 649ms
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
Total Tes 2 Tes Salah 1 Total Biaya $0.009 Waktu respons (rata-rata) 683ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 685ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Total Tes 2 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 690ms

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)