Peringkat Kecerdasan umum x Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Pemecahan teka-teki90 Kecerdasan umum78 Trik anti-AI33 Kepatuhan instruksi18 Pemrograman16 Pemanggilan alat8 Gabungan1 Spesifik domain1

78/78

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Total Tes 1 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 1.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	5.8	$5.599	0/1	6.40s
Total Tes 1 Tes Salah 1 Total Biaya $5.599 Waktu respons (rata-rata) 6.40s
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Total Tes 1 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 873ms
#184	Hunter Alpha medium	OpenRouter	1	7.0	$0.000	0/1	6.44s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 6.44s
#185	Grok 4.1 Fast medium	X AI	1	4.2	$0.069	0/1	16.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 16.2s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	0/1	1.39s
Total Tes 1 Tes Salah 1 Total Biaya $0.032 Waktu respons (rata-rata) 1.39s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 23.2s
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Total Tes 1 Tes Salah 1 Total Biaya $0.030 Waktu respons (rata-rata) 628ms
#190	MiniMax M2.5 medium	Minimax	1	3.8	$0.340	0/1	6.63s
Total Tes 1 Tes Salah 1 Total Biaya $0.340 Waktu respons (rata-rata) 6.63s
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Total Tes 1 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 541ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 854ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 920ms
#196	Hunter Alpha none	OpenRouter	1	6.1	$0.000	0/1	2.71s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.71s
#199	Hy3 preview none	Tencent	1	4.1	$0.003	0/1	16.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.003 Waktu respons (rata-rata) 16.1s
#200	MiMo-V2-Flash none	Xiaomi	1	4.6	$0.025	0/1	1.67s
Total Tes 1 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 1.67s

←

1 2 3 4 5 6

→

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang