Peringkat Kecerdasan umum x Tidak mengikuti instruksi

Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Pemecahan teka-teki90 Kecerdasan umum78 Trik anti-AI33 Kepatuhan instruksi18 Pemrograman16 Pemanggilan alat8 Gabungan1 Spesifik domain1

78/78

Peringkat	Model	Perusahaan	Jumlah Tidak mengikuti instruksi	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
Total Tes 1 Tes Salah 1 Total Biaya $1.707 Waktu respons (rata-rata) 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
Total Tes 1 Tes Salah 1 Total Biaya $0.920 Waktu respons (rata-rata) 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
Total Tes 1 Tes Salah 1 Total Biaya $1.533 Waktu respons (rata-rata) 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.951 Waktu respons (rata-rata) 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.922 Waktu respons (rata-rata) 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
Total Tes 1 Tes Salah 1 Total Biaya $0.643 Waktu respons (rata-rata) 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.237 Waktu respons (rata-rata) 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
Total Tes 1 Tes Salah 1 Total Biaya $0.604 Waktu respons (rata-rata) 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.234 Waktu respons (rata-rata) 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.405 Waktu respons (rata-rata) 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.307 Waktu respons (rata-rata) 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.042 Waktu respons (rata-rata) 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.286 Waktu respons (rata-rata) 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
Total Tes 1 Tes Salah 1 Total Biaya $0.138 Waktu respons (rata-rata) 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
Total Tes 1 Tes Salah 1 Total Biaya $0.571 Waktu respons (rata-rata) 1.99s

1 2 3 4 5 6

→

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Tidak mengikuti instruksi

Filter model

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang