Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1558

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain412 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman252 Dalam kategori Pemecahan teka-teki201 Dalam kategori Pengetahuan umum168 Dalam kategori Gabungan68 Dalam kategori Kepatuhan instruksi61 Dalam kategori Kecerdasan umum59 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

209/209

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Total Tes 22 Tes Salah 16 Total Biaya $0.095 Waktu respons (rata-rata) 1.53s
#142	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Total Tes 22 Tes Salah 16 Total Biaya $0.247 Waktu respons (rata-rata) 12.9s
#151	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Total Tes 22 Tes Salah 15 Total Biaya $0.164 Waktu respons (rata-rata) 6.70s
#161	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Total Tes 22 Tes Salah 18 Total Biaya $0.061 Waktu respons (rata-rata) 5.52s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Total Tes 22 Tes Salah 16 Total Biaya $0.147 Waktu respons (rata-rata) 3.50s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Total Tes 21 Tes Salah 15 Total Biaya $0.047 Waktu respons (rata-rata) 2.82s
#176	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Total Tes 22 Tes Salah 16 Total Biaya $0.016 Waktu respons (rata-rata) 9.15s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Total Tes 22 Tes Salah 17 Total Biaya $0.067 Waktu respons (rata-rata) 12.2s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Total Tes 22 Tes Salah 18 Total Biaya $0.032 Waktu respons (rata-rata) 9.61s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Total Tes 21 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 2.76s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Total Tes 22 Tes Salah 20 Total Biaya $0.007 Waktu respons (rata-rata) 1.45s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Total Tes 19 Tes Salah 16 Total Biaya $0.008 Waktu respons (rata-rata) 1.62s
#103	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Total Tes 22 Tes Salah 14 Total Biaya $0.090 Waktu respons (rata-rata) 4.76s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Total Tes 22 Tes Salah 12 Total Biaya $0.073 Waktu respons (rata-rata) 9.85s
#118	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Total Tes 22 Tes Salah 13 Total Biaya $0.017 Waktu respons (rata-rata) 6.20s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)