Peringkat Kepatuhan instruksi x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

LongCat 2.0 1

Alasan kegagalan

Jawaban salah61 Tidak mengikuti instruksi18 Format tambahan3 Tidak ada jawaban2 Kedaluwarsa1 Kesalahan API1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

61/61

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.2	$0.122	1/2	1.17s
Total Tes 2 Tes Salah 1 Total Biaya $0.122 Waktu respons (rata-rata) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.3	$0.106	1/2	809ms
Total Tes 2 Tes Salah 1 Total Biaya $0.106 Waktu respons (rata-rata) 809ms
#136	GPT-5.4 Mini none	OpenAI	1	6.3	$0.095	1/2	728ms
Total Tes 2 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 728ms
#138	Kimi K2.6 none	Moonshot AI	1	6.5	$0.184	1/2	1.64s
Total Tes 2 Tes Salah 1 Total Biaya $0.184 Waktu respons (rata-rata) 1.64s
#139	GPT-5.4 none	OpenAI	1	6.5	$0.397	1/2	1.07s
Total Tes 2 Tes Salah 1 Total Biaya $0.397 Waktu respons (rata-rata) 1.07s
#142	Qwen3.5-122B-A10B none	Qwen	1	6.3	$0.247	1/2	513ms
Total Tes 2 Tes Salah 1 Total Biaya $0.247 Waktu respons (rata-rata) 513ms
#145	GLM 5V Turbo none	Z.ai	1	6.5	$0.052	1/2	1.97s
Total Tes 2 Tes Salah 1 Total Biaya $0.052 Waktu respons (rata-rata) 1.97s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 10.2s
#147	Mimo V2 PRO none	Xiaomi	1	6.5	$0.045	1/2	2.51s
Total Tes 2 Tes Salah 1 Total Biaya $0.045 Waktu respons (rata-rata) 2.51s
#148	Owl Alpha none	Openrouter	1	6.4	$0.000	1/2	2.63s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.63s
#152	Qwen3.6 27B none	Qwen	1	6.2	$0.087	1/2	1.92s
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 1.92s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.4	$0.068	1/2	1.03s
Total Tes 2 Tes Salah 1 Total Biaya $0.068 Waktu respons (rata-rata) 1.03s
#155	Kimi K2.5 none	Moonshot AI	1	6.5	$0.127	1/2	2.67s
Total Tes 2 Tes Salah 1 Total Biaya $0.127 Waktu respons (rata-rata) 2.67s
#156	Gemma 4 26B A4B none	Google	1	6.3	$0.015	1/2	690ms
Total Tes 2 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 690ms
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
Total Tes 2 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 4.26s

←

1 2 3 4 5

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kepatuhan instruksi: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang