Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

412

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah412 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

198/198

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#16	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
Total Tes 3 Tes Salah 3 Total Biaya $1.357 Waktu respons (rata-rata) 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.143 Waktu respons (rata-rata) 95.9s
#20	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.935 Waktu respons (rata-rata) 72.6s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.928 Waktu respons (rata-rata) 198.9s
#24	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
Total Tes 3 Tes Salah 3 Total Biaya $0.647 Waktu respons (rata-rata) 29.7s
#36	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.267 Waktu respons (rata-rata) 45.3s
#37	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.405 Waktu respons (rata-rata) 29.6s
#45	DeepSeek V4 Flash high	DeepSeek	3	4.1	$0.042	0/3	100.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.042 Waktu respons (rata-rata) 100.3s
#51	Nemotron 3 Ultra medium	NVIDIA	3	3.5	$0.774	0/3	24.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.774 Waktu respons (rata-rata) 24.9s
#54	GPT-5.3 Chat none	OpenAI	3	3.5	$0.571	0/3	13.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.571 Waktu respons (rata-rata) 13.0s
#56	GPT-5.4 Mini medium	OpenAI	3	4.1	$0.756	0/3	65.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.756 Waktu respons (rata-rata) 65.3s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	3	4.1	$0.387	0/3	17.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.387 Waktu respons (rata-rata) 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3	3.0	$0.115	0/3	4.21s
Total Tes 3 Tes Salah 3 Total Biaya $0.115 Waktu respons (rata-rata) 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	3	2.9	$0.117	0/3	3.16s
Total Tes 3 Tes Salah 3 Total Biaya $0.117 Waktu respons (rata-rata) 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	3	2.9	$0.482	0/3	35.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.482 Waktu respons (rata-rata) 35.3s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang