Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1558

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain412 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman252 Dalam kategori Pemecahan teka-teki201 Dalam kategori Pengetahuan umum168 Dalam kategori Gabungan68 Dalam kategori Kepatuhan instruksi61 Dalam kategori Kecerdasan umum59 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

209/209

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Total Tes 22 Tes Salah 15 Total Biaya $0.062 Waktu respons (rata-rata) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Total Tes 22 Tes Salah 14 Total Biaya $0.122 Waktu respons (rata-rata) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Total Tes 22 Tes Salah 15 Total Biaya $0.106 Waktu respons (rata-rata) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Total Tes 22 Tes Salah 14 Total Biaya $0.095 Waktu respons (rata-rata) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Total Tes 21 Tes Salah 12 Total Biaya $0.041 Waktu respons (rata-rata) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Total Tes 22 Tes Salah 17 Total Biaya $0.044 Waktu respons (rata-rata) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Total Tes 22 Tes Salah 18 Total Biaya $0.016 Waktu respons (rata-rata) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Total Tes 22 Tes Salah 17 Total Biaya $0.096 Waktu respons (rata-rata) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Total Tes 22 Tes Salah 18 Total Biaya $0.000 Waktu respons (rata-rata) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Total Tes 21 Tes Salah 17 Total Biaya $0.008 Waktu respons (rata-rata) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Total Tes 22 Tes Salah 11 Total Biaya $0.544 Waktu respons (rata-rata) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Total Tes 22 Tes Salah 13 Total Biaya $0.068 Waktu respons (rata-rata) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Total Tes 22 Tes Salah 13 Total Biaya $0.046 Waktu respons (rata-rata) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Total Tes 22 Tes Salah 14 Total Biaya $0.349 Waktu respons (rata-rata) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Total Tes 22 Tes Salah 15 Total Biaya $0.184 Waktu respons (rata-rata) 19.6s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)