Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.584 Waktu respons (rata-rata) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
Total Tes 3 Tes Salah 2 Total Biaya $0.604 Waktu respons (rata-rata) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Total Tes 3 Tes Salah 2 Total Biaya $0.391 Waktu respons (rata-rata) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Total Tes 3 Tes Salah 2 Total Biaya $1.055 Waktu respons (rata-rata) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.234 Waktu respons (rata-rata) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.676 Waktu respons (rata-rata) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Total Tes 3 Tes Salah 2 Total Biaya $2.077 Waktu respons (rata-rata) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Total Tes 3 Tes Salah 3 Total Biaya $0.307 Waktu respons (rata-rata) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.200 Waktu respons (rata-rata) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.323 Waktu respons (rata-rata) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.352 Waktu respons (rata-rata) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.138 Waktu respons (rata-rata) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
Total Tes 3 Tes Salah 2 Total Biaya $0.519 Waktu respons (rata-rata) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.478 Waktu respons (rata-rata) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
Total Tes 3 Tes Salah 2 Total Biaya $0.177 Waktu respons (rata-rata) 8.05s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang