Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1523

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain404 Dalam kategori Trik anti-AI290 Dalam kategori Pemrograman249 Dalam kategori Pemecahan teka-teki193 Dalam kategori Pengetahuan umum165 Dalam kategori Gabungan67 Dalam kategori Kepatuhan instruksi57 Dalam kategori Kecerdasan umum55 Dalam kategori Parsing dan ekstraksi data40 Dalam kategori Pemanggilan alat3

205/205

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Total Tes 22 Tes Salah 18 Total Biaya $0.030 Waktu respons (rata-rata) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Total Tes 22 Tes Salah 17 Total Biaya $0.022 Waktu respons (rata-rata) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Total Tes 22 Tes Salah 16 Total Biaya $0.127 Waktu respons (rata-rata) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Total Tes 22 Tes Salah 17 Total Biaya $0.010 Waktu respons (rata-rata) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Total Tes 22 Tes Salah 17 Total Biaya $0.017 Waktu respons (rata-rata) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Total Tes 22 Tes Salah 18 Total Biaya $0.041 Waktu respons (rata-rata) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Total Tes 22 Tes Salah 15 Total Biaya $0.397 Waktu respons (rata-rata) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Total Tes 22 Tes Salah 16 Total Biaya $0.142 Waktu respons (rata-rata) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Total Tes 22 Tes Salah 17 Total Biaya $0.008 Waktu respons (rata-rata) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Total Tes 22 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Total Tes 22 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Total Tes 22 Tes Salah 18 Total Biaya $0.021 Waktu respons (rata-rata) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total Tes 22 Tes Salah 14 Total Biaya $0.066 Waktu respons (rata-rata) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Total Tes 22 Tes Salah 14 Total Biaya $0.073 Waktu respons (rata-rata) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Total Tes 22 Tes Salah 16 Total Biaya $0.095 Waktu respons (rata-rata) 1.53s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)