Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Total Tes 22 Tes Salah 9 Total Biaya $0.085 Waktu respons (rata-rata) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Total Tes 22 Tes Salah 12 Total Biaya $0.391 Waktu respons (rata-rata) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Total Tes 22 Tes Salah 10 Total Biaya $0.128 Waktu respons (rata-rata) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Total Tes 22 Tes Salah 12 Total Biaya $0.047 Waktu respons (rata-rata) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Total Tes 22 Tes Salah 12 Total Biaya $0.187 Waktu respons (rata-rata) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Total Tes 21 Tes Salah 17 Total Biaya $0.003 Waktu respons (rata-rata) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
Total Tes 19 Tes Salah 14 Total Biaya $0.004 Waktu respons (rata-rata) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Total Tes 19 Tes Salah 13 Total Biaya $0.010 Waktu respons (rata-rata) 21.6s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Total Tes 22 Tes Salah 8 Total Biaya $1.055 Waktu respons (rata-rata) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Total Tes 22 Tes Salah 7 Total Biaya $1.017 Waktu respons (rata-rata) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Total Tes 22 Tes Salah 9 Total Biaya $0.774 Waktu respons (rata-rata) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Total Tes 22 Tes Salah 9 Total Biaya $0.571 Waktu respons (rata-rata) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Total Tes 22 Tes Salah 7 Total Biaya $0.197 Waktu respons (rata-rata) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Total Tes 22 Tes Salah 10 Total Biaya $0.478 Waktu respons (rata-rata) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Total Tes 22 Tes Salah 9 Total Biaya $0.115 Waktu respons (rata-rata) 4.61s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)