Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
Total Tes 3 Tes Salah 2 Total Biaya $0.147 Waktu respons (rata-rata) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
Total Tes 3 Tes Salah 2 Total Biaya $0.022 Waktu respons (rata-rata) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
Total Tes 3 Tes Salah 2 Total Biaya $0.025 Waktu respons (rata-rata) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
Total Tes 3 Tes Salah 2 Total Biaya $0.047 Waktu respons (rata-rata) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
Total Tes 3 Tes Salah 3 Total Biaya $0.054 Waktu respons (rata-rata) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.026 Waktu respons (rata-rata) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
Total Tes 3 Tes Salah 3 Total Biaya $5.599 Waktu respons (rata-rata) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
Total Tes 3 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.033 Waktu respons (rata-rata) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
Total Tes 3 Tes Salah 2 Total Biaya $0.032 Waktu respons (rata-rata) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
Total Tes 3 Tes Salah 2 Total Biaya $0.030 Waktu respons (rata-rata) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.340 Waktu respons (rata-rata) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.166 Waktu respons (rata-rata) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
Total Tes 3 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 2.33s

←

1 9 10 11 14

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang