Peringkat Kecerdasan umum x Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Pemecahan teka-teki90 Kecerdasan umum78 Trik anti-AI33 Kepatuhan instruksi18 Pemrograman16 Pemanggilan alat8 Gabungan1 Spesifik domain1

78/78

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	4.0	$0.646	0/1	1.54s
Total Tes 1 Tes Salah 1 Total Biaya $0.646 Waktu respons (rata-rata) 1.54s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
Total Tes 1 Tes Salah 1 Total Biaya $0.052 Waktu respons (rata-rata) 741ms
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.103 Waktu respons (rata-rata) 58.3s
#112	Claude Sonnet 5 none	Anthropic	1	4.7	$0.548	0/1	2.81s
Total Tes 1 Tes Salah 1 Total Biaya $0.548 Waktu respons (rata-rata) 2.81s
#113	MiMo-V2-Flash medium	Xiaomi	1	4.0	$0.043	0/1	4.20s
Total Tes 1 Tes Salah 1 Total Biaya $0.043 Waktu respons (rata-rata) 4.20s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.139 Waktu respons (rata-rata) 40.1s
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
Total Tes 1 Tes Salah 1 Total Biaya $0.047 Waktu respons (rata-rata) 791ms
#121	gpt-oss-120b medium	OpenAI	1	4.3	$0.019	0/1	7.90s
Total Tes 1 Tes Salah 1 Total Biaya $0.019 Waktu respons (rata-rata) 7.90s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.8	$0.122	0/1	1.41s
Total Tes 1 Tes Salah 1 Total Biaya $0.122 Waktu respons (rata-rata) 1.41s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
Total Tes 1 Tes Salah 1 Total Biaya $0.106 Waktu respons (rata-rata) 1.19s
#128	GPT-5 Nano medium	OpenAI	1	4.1	$0.114	0/1	17.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.114 Waktu respons (rata-rata) 17.5s
#130	Step 3.5 Flash medium	Stepfun	1	5.5	$0.108	0/1	22.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.108 Waktu respons (rata-rata) 22.4s
#136	GPT-5.4 Mini none	OpenAI	1	4.8	$0.095	0/1	1.82s
Total Tes 1 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 1.82s
#138	Kimi K2.6 none	Moonshot AI	1	5.4	$0.184	0/1	1.55s
Total Tes 1 Tes Salah 1 Total Biaya $0.184 Waktu respons (rata-rata) 1.55s
#140	Nemotron 3 Super medium	NVIDIA	1	4.1	$0.050	0/1	6.91s
Total Tes 1 Tes Salah 1 Total Biaya $0.050 Waktu respons (rata-rata) 6.91s

←

1 2 3 4 5 6

→

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang