Peringkat Kepatuhan instruksi x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kepatuhan instruksi, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

LongCat 2.0 1

Alasan kegagalan

Jawaban salah61 Tidak mengikuti instruksi18 Format tambahan3 Tidak ada jawaban2 Kedaluwarsa1 Kesalahan API1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

61/61

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#177	Nemotron 3 Super none	NVIDIA	1	6.3	$0.008	1/2	804ms
Total Tes 2 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 804ms
#180	GPT-5.4 Nano none	OpenAI	1	6.3	$0.041	1/2	784ms
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 784ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 822ms
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
Total Tes 2 Tes Salah 1 Total Biaya $0.032 Waktu respons (rata-rata) 7.49s
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
Total Tes 2 Tes Salah 1 Total Biaya $0.030 Waktu respons (rata-rata) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
Total Tes 2 Tes Salah 1 Total Biaya $0.009 Waktu respons (rata-rata) 683ms
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
Total Tes 2 Tes Salah 1 Total Biaya $0.166 Waktu respons (rata-rata) 2.97s
#196	Hunter Alpha none	OpenRouter	1	6.4	$0.000	1/2	2.82s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.82s
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
Total Tes 2 Tes Salah 1 Total Biaya $0.057 Waktu respons (rata-rata) 445ms
#200	MiMo-V2-Flash none	Xiaomi	1	6.5	$0.025	1/2	857ms
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 857ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
Total Tes 2 Tes Salah 2 Total Biaya $0.007 Waktu respons (rata-rata) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 685ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
Total Tes 2 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 439ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
Total Tes 2 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 541ms

←

1 2 3 4 5

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kepatuhan instruksi: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang