Peringkat Kecerdasan umum x Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Pemecahan teka-teki90 Kecerdasan umum78 Trik anti-AI33 Kepatuhan instruksi18 Pemrograman16 Pemanggilan alat8 Gabungan1 Spesifik domain1

78/78

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Total Tes 1 Tes Salah 1 Total Biaya $0.247 Waktu respons (rata-rata) 1.12s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
Total Tes 1 Tes Salah 1 Total Biaya $2.044 Waktu respons (rata-rata) 45.7s
#145	GLM 5V Turbo none	Z.ai	1	4.6	$0.052	0/1	2.22s
Total Tes 1 Tes Salah 1 Total Biaya $0.052 Waktu respons (rata-rata) 2.22s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 58.6s
#147	Mimo V2 PRO none	Xiaomi	1	4.3	$0.045	0/1	2.44s
Total Tes 1 Tes Salah 1 Total Biaya $0.045 Waktu respons (rata-rata) 2.44s
#148	Owl Alpha none	Openrouter	1	4.3	$0.000	0/1	4.61s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 4.61s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.0	$0.048	0/1	9.81s
Total Tes 1 Tes Salah 1 Total Biaya $0.048 Waktu respons (rata-rata) 9.81s
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Total Tes 1 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 1.07s
#156	Gemma 4 26B A4B none	Google	1	4.0	$0.015	0/1	3.54s
Total Tes 1 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 3.54s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	5.0	$0.041	0/1	10.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 10.1s
#162	Ling-2.6-1T none	Inclusionai	1	5.0	$0.016	0/1	20.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 20.3s
#167	Mistral Small 4 medium	Mistral	1	4.8	$0.096	0/1	2.05s
Total Tes 1 Tes Salah 1 Total Biaya $0.096 Waktu respons (rata-rata) 2.05s
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Total Tes 1 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 552ms
#170	GLM 5 Turbo none	Z.ai	1	4.2	$0.047	0/1	2.18s
Total Tes 1 Tes Salah 1 Total Biaya $0.047 Waktu respons (rata-rata) 2.18s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.163 Waktu respons (rata-rata) 38.7s

←

1 2 3 4 5 6

→

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang