Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Total Tes 3 Tes Salah 3 Total Biaya $0.025 Waktu respons (rata-rata) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Total Tes 3 Tes Salah 3 Total Biaya $0.021 Waktu respons (rata-rata) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
Total Tes 3 Tes Salah 3 Total Biaya $0.010 Waktu respons (rata-rata) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
Total Tes 3 Tes Salah 3 Total Biaya $0.008 Waktu respons (rata-rata) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
Total Tes 3 Tes Salah 3 Total Biaya $0.002 Waktu respons (rata-rata) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
Total Tes 3 Tes Salah 3 Total Biaya $0.041 Waktu respons (rata-rata) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
Total Tes 3 Tes Salah 3 Total Biaya $0.067 Waktu respons (rata-rata) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
Total Tes 3 Tes Salah 3 Total Biaya $0.087 Waktu respons (rata-rata) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
Total Tes 3 Tes Salah 3 Total Biaya $0.009 Waktu respons (rata-rata) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
Total Tes 3 Tes Salah 3 Total Biaya $0.007 Waktu respons (rata-rata) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.010 Waktu respons (rata-rata) 35.0s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang