Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.971 Waktu respons (rata-rata) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
Total Tes 3 Tes Salah 2 Total Biaya $1.316 Waktu respons (rata-rata) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
Total Tes 3 Tes Salah 2 Total Biaya $1.234 Waktu respons (rata-rata) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
Total Tes 3 Tes Salah 2 Total Biaya $1.253 Waktu respons (rata-rata) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
Total Tes 3 Tes Salah 2 Total Biaya $1.116 Waktu respons (rata-rata) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
Total Tes 3 Tes Salah 2 Total Biaya $4.137 Waktu respons (rata-rata) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
Total Tes 3 Tes Salah 3 Total Biaya $1.707 Waktu respons (rata-rata) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.920 Waktu respons (rata-rata) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
Total Tes 3 Tes Salah 2 Total Biaya $1.931 Waktu respons (rata-rata) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
Total Tes 3 Tes Salah 2 Total Biaya $3.478 Waktu respons (rata-rata) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
Total Tes 3 Tes Salah 2 Total Biaya $1.533 Waktu respons (rata-rata) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.643 Waktu respons (rata-rata) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.237 Waktu respons (rata-rata) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
Total Tes 3 Tes Salah 3 Total Biaya $1.694 Waktu respons (rata-rata) 67.4s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang