Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total Tes 21 Tes Salah 13 Total Biaya $0.052 Waktu respons (rata-rata) 2.99s
#153	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Total Tes 21 Tes Salah 14 Total Biaya $0.045 Waktu respons (rata-rata) 2.27s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Total Tes 22 Tes Salah 14 Total Biaya $0.048 Waktu respons (rata-rata) 8.42s
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Total Tes 22 Tes Salah 15 Total Biaya $0.087 Waktu respons (rata-rata) 10.7s
#160	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Total Tes 22 Tes Salah 16 Total Biaya $0.068 Waktu respons (rata-rata) 4.12s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Total Tes 22 Tes Salah 11 Total Biaya $0.387 Waktu respons (rata-rata) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Total Tes 22 Tes Salah 11 Total Biaya $0.482 Waktu respons (rata-rata) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Total Tes 22 Tes Salah 11 Total Biaya $0.106 Waktu respons (rata-rata) 12.1s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Total Tes 22 Tes Salah 11 Total Biaya $0.524 Waktu respons (rata-rata) 2.16s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Total Tes 22 Tes Salah 11 Total Biaya $0.476 Waktu respons (rata-rata) 25.6s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Total Tes 22 Tes Salah 10 Total Biaya $0.231 Waktu respons (rata-rata) 7.82s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Total Tes 22 Tes Salah 12 Total Biaya $0.249 Waktu respons (rata-rata) 5.04s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Total Tes 21 Tes Salah 13 Total Biaya $0.000 Waktu respons (rata-rata) 11.9s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Total Tes 21 Tes Salah 14 Total Biaya $0.000 Waktu respons (rata-rata) 9.88s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Total Tes 22 Tes Salah 14 Total Biaya $0.015 Waktu respons (rata-rata) 7.64s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)