Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.5

Model terbaik

Kimi K2.5 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi18 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

210/210

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#150	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
Total Tes 2 Tes Salah 1 Total Biaya $0.044 Waktu respons (rata-rata) 17.5s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
Total Tes 2 Tes Salah 0 Total Biaya $0.089 Waktu respons (rata-rata) 17.5s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
Total Tes 2 Tes Salah 0 Total Biaya $0.101 Waktu respons (rata-rata) 17.5s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
Total Tes 2 Tes Salah 0 Total Biaya $0.267 Waktu respons (rata-rata) 16.1s
#153	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
Total Tes 2 Tes Salah 0 Total Biaya $0.015 Waktu respons (rata-rata) 16.0s
#128	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
Total Tes 2 Tes Salah 0 Total Biaya $0.114 Waktu respons (rata-rata) 15.6s
#137	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
Total Tes 2 Tes Salah 0 Total Biaya $0.000 Waktu respons (rata-rata) 15.4s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
Total Tes 2 Tes Salah 0 Total Biaya $0.042 Waktu respons (rata-rata) 15.4s
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
Total Tes 2 Tes Salah 1 Total Biaya $0.003 Waktu respons (rata-rata) 13.0s
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
Total Tes 2 Tes Salah 2 Total Biaya $0.163 Waktu respons (rata-rata) 12.8s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
Total Tes 2 Tes Salah 0 Total Biaya $0.163 Waktu respons (rata-rata) 12.8s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
Total Tes 2 Tes Salah 0 Total Biaya $1.036 Waktu respons (rata-rata) 12.5s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
Total Tes 2 Tes Salah 0 Total Biaya $1.097 Waktu respons (rata-rata) 12.4s
#108	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
Total Tes 2 Tes Salah 0 Total Biaya $0.103 Waktu respons (rata-rata) 11.8s
#188	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
Total Tes 2 Tes Salah 0 Total Biaya $0.000 Waktu respons (rata-rata) 11.6s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)