Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#117	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Total Tes 3 Tes Salah 3 Total Biaya $0.044 Waktu respons (rata-rata) 1.72s
#122	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Total Tes 3 Tes Salah 3 Total Biaya $0.066 Waktu respons (rata-rata) 1.33s
#123	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.249 Waktu respons (rata-rata) 10.0s
#126	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
Total Tes 3 Tes Salah 3 Total Biaya $0.047 Waktu respons (rata-rata) 1.02s
#127	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.019 Waktu respons (rata-rata) 50.9s
#128	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
Total Tes 3 Tes Salah 3 Total Biaya $0.046 Waktu respons (rata-rata) 762ms
#142	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
Total Tes 3 Tes Salah 3 Total Biaya $0.095 Waktu respons (rata-rata) 937ms
#147	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
Total Tes 3 Tes Salah 3 Total Biaya $0.041 Waktu respons (rata-rata) 2.24s
#149	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
Total Tes 3 Tes Salah 3 Total Biaya $2.044 Waktu respons (rata-rata) 139.9s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
Total Tes 3 Tes Salah 3 Total Biaya $0.048 Waktu respons (rata-rata) 4.87s
#157	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
Total Tes 3 Tes Salah 3 Total Biaya $0.164 Waktu respons (rata-rata) 1.99s
#162	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
Total Tes 3 Tes Salah 3 Total Biaya $0.015 Waktu respons (rata-rata) 2.49s
#165	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
Total Tes 3 Tes Salah 3 Total Biaya $0.142 Waktu respons (rata-rata) 737ms
#167	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
Total Tes 3 Tes Salah 3 Total Biaya $0.061 Waktu respons (rata-rata) 7.45s
#168	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
Total Tes 3 Tes Salah 3 Total Biaya $0.016 Waktu respons (rata-rata) 1.04s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang