Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Total Tes 21 Tes Salah 13 Total Biaya $0.021 Waktu respons (rata-rata) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Total Tes 18 Tes Salah 12 Total Biaya $0.087 Waktu respons (rata-rata) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Total Tes 19 Tes Salah 15 Total Biaya $0.009 Waktu respons (rata-rata) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Total Tes 18 Tes Salah 12 Total Biaya $0.057 Waktu respons (rata-rata) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Total Tes 22 Tes Salah 11 Total Biaya $0.467 Waktu respons (rata-rata) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Total Tes 22 Tes Salah 10 Total Biaya $0.145 Waktu respons (rata-rata) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Total Tes 22 Tes Salah 10 Total Biaya $0.369 Waktu respons (rata-rata) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Total Tes 22 Tes Salah 10 Total Biaya $0.621 Waktu respons (rata-rata) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Total Tes 22 Tes Salah 12 Total Biaya $0.021 Waktu respons (rata-rata) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Total Tes 22 Tes Salah 13 Total Biaya $0.019 Waktu respons (rata-rata) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Total Tes 22 Tes Salah 13 Total Biaya $0.114 Waktu respons (rata-rata) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Total Tes 22 Tes Salah 13 Total Biaya $0.000 Waktu respons (rata-rata) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Total Tes 22 Tes Salah 15 Total Biaya $0.077 Waktu respons (rata-rata) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Total Tes 22 Tes Salah 16 Total Biaya $0.002 Waktu respons (rata-rata) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Total Tes 21 Tes Salah 14 Total Biaya $0.000 Waktu respons (rata-rata) 39.9s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)