Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.5

Model terbaik

Kimi K2.5 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi18 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

210/210

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#77	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	2/2	92.5s
Total Tes 2 Tes Salah 0 Total Biaya $0.600 Waktu respons (rata-rata) 92.5s
#163	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
Total Tes 2 Tes Salah 0 Total Biaya $2.310 Waktu respons (rata-rata) 64.0s
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
Total Tes 2 Tes Salah 0 Total Biaya $0.139 Waktu respons (rata-rata) 63.5s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	2/2	38.0s
Total Tes 2 Tes Salah 0 Total Biaya $0.779 Waktu respons (rata-rata) 38.0s
#76	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	2/2	35.8s
Total Tes 2 Tes Salah 0 Total Biaya $0.078 Waktu respons (rata-rata) 35.8s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
Total Tes 2 Tes Salah 0 Total Biaya $0.048 Waktu respons (rata-rata) 34.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
Total Tes 2 Tes Salah 0 Total Biaya $0.437 Waktu respons (rata-rata) 31.9s
#171	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 30.7s
#179	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
Total Tes 2 Tes Salah 0 Total Biaya $0.026 Waktu respons (rata-rata) 27.4s
#119	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
Total Tes 2 Tes Salah 0 Total Biaya $0.837 Waktu respons (rata-rata) 24.4s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	2/2	24.3s
Total Tes 2 Tes Salah 0 Total Biaya $1.143 Waktu respons (rata-rata) 24.3s
#143	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
Total Tes 2 Tes Salah 1 Total Biaya $2.044 Waktu respons (rata-rata) 23.3s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
Total Tes 2 Tes Salah 0 Total Biaya $0.317 Waktu respons (rata-rata) 20.2s
#58	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
Total Tes 2 Tes Salah 0 Total Biaya $1.627 Waktu respons (rata-rata) 19.7s
#73	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
Total Tes 2 Tes Salah 0 Total Biaya $0.779 Waktu respons (rata-rata) 18.6s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)