Peringkat Kecerdasan umum x Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Pemecahan teka-teki90 Kecerdasan umum78 Trik anti-AI33 Kepatuhan instruksi18 Pemrograman16 Pemanggilan alat8 Gabungan1 Spesifik domain1

78/78

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
Total Tes 1 Tes Salah 1 Total Biaya $0.756 Waktu respons (rata-rata) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
Total Tes 1 Tes Salah 1 Total Biaya $1.627 Waktu respons (rata-rata) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
Total Tes 1 Tes Salah 1 Total Biaya $0.661 Waktu respons (rata-rata) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
Total Tes 1 Tes Salah 1 Total Biaya $0.106 Waktu respons (rata-rata) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.779 Waktu respons (rata-rata) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.777 Waktu respons (rata-rata) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.600 Waktu respons (rata-rata) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Total Tes 1 Tes Salah 1 Total Biaya $0.093 Waktu respons (rata-rata) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.101 Waktu respons (rata-rata) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
Total Tes 1 Tes Salah 1 Total Biaya $0.467 Waktu respons (rata-rata) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
Total Tes 1 Tes Salah 1 Total Biaya $0.187 Waktu respons (rata-rata) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
Total Tes 1 Tes Salah 1 Total Biaya $0.746 Waktu respons (rata-rata) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.779 Waktu respons (rata-rata) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
Total Tes 1 Tes Salah 1 Total Biaya $0.082 Waktu respons (rata-rata) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
Total Tes 1 Tes Salah 1 Total Biaya $0.090 Waktu respons (rata-rata) 2.51s

←

1 2 3 4 5 6

→

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang