Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

412

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah412 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

198/198

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.317 Waktu respons (rata-rata) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
Total Tes 3 Tes Salah 3 Total Biaya $0.106 Waktu respons (rata-rata) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
Total Tes 3 Tes Salah 3 Total Biaya $1.046 Waktu respons (rata-rata) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
Total Tes 3 Tes Salah 3 Total Biaya $0.093 Waktu respons (rata-rata) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.467 Waktu respons (rata-rata) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
Total Tes 3 Tes Salah 3 Total Biaya $0.524 Waktu respons (rata-rata) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.738 Waktu respons (rata-rata) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
Total Tes 3 Tes Salah 3 Total Biaya $0.544 Waktu respons (rata-rata) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.476 Waktu respons (rata-rata) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
Total Tes 3 Tes Salah 3 Total Biaya $0.779 Waktu respons (rata-rata) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
Total Tes 3 Tes Salah 3 Total Biaya $0.068 Waktu respons (rata-rata) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Total Tes 3 Tes Salah 3 Total Biaya $0.090 Waktu respons (rata-rata) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.103 Waktu respons (rata-rata) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Total Tes 3 Tes Salah 3 Total Biaya $0.044 Waktu respons (rata-rata) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Total Tes 3 Tes Salah 3 Total Biaya $0.066 Waktu respons (rata-rata) 1.33s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang