Peringkat Kepatuhan instruksi x Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Jumlah kegagalan ↑.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Muse Spark 1.1 1

Alasan kegagalan

Jawaban salah61 Tidak mengikuti instruksi18 Format tambahan3 Tidak ada jawaban2 Kedaluwarsa1 Kesalahan API1

Kategori

Pemecahan teka-teki90 Kecerdasan umum78 Trik anti-AI33 Kepatuhan instruksi18 Pemrograman16 Pemanggilan alat8 Gabungan1 Spesifik domain1

18/18

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
Total Tes 2 Tes Salah 1 Total Biaya $1.357 Waktu respons (rata-rata) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
Total Tes 2 Tes Salah 1 Total Biaya $0.647 Waktu respons (rata-rata) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
Total Tes 2 Tes Salah 1 Total Biaya $1.694 Waktu respons (rata-rata) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
Total Tes 2 Tes Salah 1 Total Biaya $0.200 Waktu respons (rata-rata) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
Total Tes 2 Tes Salah 1 Total Biaya $0.524 Waktu respons (rata-rata) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
Total Tes 2 Tes Salah 1 Total Biaya $0.249 Waktu respons (rata-rata) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
Total Tes 2 Tes Salah 1 Total Biaya $0.108 Waktu respons (rata-rata) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
Total Tes 2 Tes Salah 1 Total Biaya $0.349 Waktu respons (rata-rata) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
Total Tes 2 Tes Salah 1 Total Biaya $0.683 Waktu respons (rata-rata) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
Total Tes 2 Tes Salah 1 Total Biaya $0.050 Waktu respons (rata-rata) 6.97s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Total Tes 2 Tes Salah 2 Total Biaya $0.163 Waktu respons (rata-rata) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 822ms
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
Total Tes 2 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
Total Tes 2 Tes Salah 1 Total Biaya $0.340 Waktu respons (rata-rata) 621ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
Total Tes 2 Tes Salah 2 Total Biaya $0.007 Waktu respons (rata-rata) 344ms

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kepatuhan instruksi: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang