Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Total kegagalan

1558

Model yang paling terdampak

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Kategori

Dalam kategori Spesifik domain412 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman252 Dalam kategori Pemecahan teka-teki201 Dalam kategori Pengetahuan umum168 Dalam kategori Gabungan68 Dalam kategori Kepatuhan instruksi61 Dalam kategori Kecerdasan umum59 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

209/209

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#89	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Total Tes 22 Tes Salah 9 Total Biaya $0.085 Waktu respons (rata-rata) 2.95s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Total Tes 21 Tes Salah 17 Total Biaya $0.008 Waktu respons (rata-rata) 2.98s
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total Tes 21 Tes Salah 13 Total Biaya $0.052 Waktu respons (rata-rata) 2.99s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Total Tes 19 Tes Salah 3 Total Biaya $0.505 Waktu respons (rata-rata) 3.02s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Total Tes 22 Tes Salah 16 Total Biaya $0.147 Waktu respons (rata-rata) 3.50s
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Total Tes 22 Tes Salah 15 Total Biaya $0.062 Waktu respons (rata-rata) 3.74s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Total Tes 22 Tes Salah 14 Total Biaya $0.095 Waktu respons (rata-rata) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Total Tes 21 Tes Salah 12 Total Biaya $0.041 Waktu respons (rata-rata) 4.03s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Total Tes 22 Tes Salah 16 Total Biaya $0.068 Waktu respons (rata-rata) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Total Tes 22 Tes Salah 9 Total Biaya $0.117 Waktu respons (rata-rata) 4.27s
#116	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total Tes 22 Tes Salah 14 Total Biaya $0.066 Waktu respons (rata-rata) 4.40s
#59	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Total Tes 22 Tes Salah 7 Total Biaya $0.197 Waktu respons (rata-rata) 4.52s
#64	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Total Tes 22 Tes Salah 9 Total Biaya $0.115 Waktu respons (rata-rata) 4.61s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Total Tes 22 Tes Salah 17 Total Biaya $0.025 Waktu respons (rata-rata) 4.62s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Total Tes 18 Tes Salah 12 Total Biaya $0.000 Waktu respons (rata-rata) 4.70s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)