Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Total Tes 22 Tes Salah 8 Total Biaya $0.604 Waktu respons (rata-rata) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Total Tes 22 Tes Salah 9 Total Biaya $0.041 Waktu respons (rata-rata) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Total Tes 22 Tes Salah 12 Total Biaya $0.200 Waktu respons (rata-rata) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Total Tes 22 Tes Salah 10 Total Biaya $0.756 Waktu respons (rata-rata) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Total Tes 22 Tes Salah 6 Total Biaya $0.177 Waktu respons (rata-rata) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Total Tes 22 Tes Salah 10 Total Biaya $0.777 Waktu respons (rata-rata) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Total Tes 22 Tes Salah 11 Total Biaya $1.207 Waktu respons (rata-rata) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Total Tes 22 Tes Salah 13 Total Biaya $0.469 Waktu respons (rata-rata) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Total Tes 22 Tes Salah 12 Total Biaya $0.779 Waktu respons (rata-rata) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Total Tes 22 Tes Salah 11 Total Biaya $0.103 Waktu respons (rata-rata) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Total Tes 22 Tes Salah 17 Total Biaya $0.163 Waktu respons (rata-rata) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Total Tes 19 Tes Salah 13 Total Biaya $0.015 Waktu respons (rata-rata) 6.73s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Total Tes 22 Tes Salah 7 Total Biaya $1.533 Waktu respons (rata-rata) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Total Tes 22 Tes Salah 6 Total Biaya $1.143 Waktu respons (rata-rata) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Total Tes 22 Tes Salah 10 Total Biaya $0.237 Waktu respons (rata-rata) 27.6s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)