Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#144	Kimi K2.6 none	Moonshot AI	2	5.3	$0.184	1/3	1.48s
Total Tes 3 Tes Salah 2 Total Biaya $0.184 Waktu respons (rata-rata) 1.48s
#145	GPT-5.4 none	OpenAI	2	5.3	$0.397	1/3	1.07s
Total Tes 3 Tes Salah 2 Total Biaya $0.397 Waktu respons (rata-rata) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	2	2.9	$0.055	0/3	16.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.055 Waktu respons (rata-rata) 16.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
Total Tes 3 Tes Salah 2 Total Biaya $0.247 Waktu respons (rata-rata) 465ms
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
Total Tes 3 Tes Salah 2 Total Biaya $0.052 Waktu respons (rata-rata) 2.09s
#152	Owl Alpha medium	Openrouter	2	5.3	$0.000	1/3	8.58s
Total Tes 3 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 8.58s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
Total Tes 3 Tes Salah 2 Total Biaya $0.045 Waktu respons (rata-rata) 1.78s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
Total Tes 3 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	2	5.3	$0.042	1/3	19.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.042 Waktu respons (rata-rata) 19.7s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.015 Waktu respons (rata-rata) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	2	5.3	$0.068	1/3	877ms
Total Tes 3 Tes Salah 2 Total Biaya $0.068 Waktu respons (rata-rata) 877ms
#161	Kimi K2.5 none	Moonshot AI	2	5.3	$0.127	1/3	4.38s
Total Tes 3 Tes Salah 2 Total Biaya $0.127 Waktu respons (rata-rata) 4.38s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
Total Tes 3 Tes Salah 2 Total Biaya $0.021 Waktu respons (rata-rata) 2.10s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
Total Tes 3 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	1/3	127.6s
Total Tes 3 Tes Salah 2 Total Biaya $2.310 Waktu respons (rata-rata) 127.6s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang