Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Total Tes 3 Tes Salah 2 Total Biaya $1.166 Waktu respons (rata-rata) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.454 Waktu respons (rata-rata) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.779 Waktu respons (rata-rata) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.078 Waktu respons (rata-rata) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.600 Waktu respons (rata-rata) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Total Tes 3 Tes Salah 2 Total Biaya $0.096 Waktu respons (rata-rata) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Total Tes 3 Tes Salah 3 Total Biaya $1.207 Waktu respons (rata-rata) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.746 Waktu respons (rata-rata) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.391 Waktu respons (rata-rata) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.457 Waktu respons (rata-rata) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.089 Waktu respons (rata-rata) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Total Tes 3 Tes Salah 2 Total Biaya $0.128 Waktu respons (rata-rata) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.018 Waktu respons (rata-rata) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Total Tes 3 Tes Salah 2 Total Biaya $0.646 Waktu respons (rata-rata) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Total Tes 3 Tes Salah 2 Total Biaya $0.621 Waktu respons (rata-rata) 1.52s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang