Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.5

Model terbaik

Granite 4.1 8B 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi18 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

210/210

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
Total Tes 2 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
Total Tes 2 Tes Salah 1 Total Biaya $0.001 Waktu respons (rata-rata) 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Total Tes 2 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
Total Tes 2 Tes Salah 1 Total Biaya $0.106 Waktu respons (rata-rata) 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
Total Tes 2 Tes Salah 0 Total Biaya $0.046 Waktu respons (rata-rata) 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
Total Tes 2 Tes Salah 1 Total Biaya $0.300 Waktu respons (rata-rata) 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
Total Tes 2 Tes Salah 1 Total Biaya $0.106 Waktu respons (rata-rata) 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
Total Tes 2 Tes Salah 0 Total Biaya $0.047 Waktu respons (rata-rata) 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
Total Tes 2 Tes Salah 0 Total Biaya $0.197 Waktu respons (rata-rata) 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
Total Tes 2 Tes Salah 0 Total Biaya $0.000 Waktu respons (rata-rata) 987ms

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)