Peringkat Kepatuhan instruksi x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

LongCat 2.0 1

Alasan kegagalan

Jawaban salah61 Tidak mengikuti instruksi18 Format tambahan3 Tidak ada jawaban2 Kedaluwarsa1 Kesalahan API1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

61/61

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
Total Tes 2 Tes Salah 1 Total Biaya $0.142 Waktu respons (rata-rata) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
Total Tes 2 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
Total Tes 2 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
Total Tes 2 Tes Salah 1 Total Biaya $0.022 Waktu respons (rata-rata) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
Total Tes 2 Tes Salah 1 Total Biaya $0.096 Waktu respons (rata-rata) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
Total Tes 2 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
Total Tes 2 Tes Salah 1 Total Biaya $0.047 Waktu respons (rata-rata) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Total Tes 2 Tes Salah 2 Total Biaya $0.163 Waktu respons (rata-rata) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
Total Tes 2 Tes Salah 1 Total Biaya $0.010 Waktu respons (rata-rata) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 888ms

←

1 2 3 4 5

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kepatuhan instruksi: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang