Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

421

Model yang paling terdampak

Muse Spark 1.1 3

Alasan kegagalan

Jawaban salah421 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

202/202

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
Total Tes 3 Tes Salah 2 Total Biaya $0.052 Waktu respons (rata-rata) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
Total Tes 3 Tes Salah 2 Total Biaya $0.073 Waktu respons (rata-rata) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
Total Tes 3 Tes Salah 2 Total Biaya $0.548 Waktu respons (rata-rata) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
Total Tes 3 Tes Salah 2 Total Biaya $0.043 Waktu respons (rata-rata) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
Total Tes 3 Tes Salah 2 Total Biaya $0.017 Waktu respons (rata-rata) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
Total Tes 3 Tes Salah 2 Total Biaya $0.187 Waktu respons (rata-rata) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
Total Tes 3 Tes Salah 2 Total Biaya $0.062 Waktu respons (rata-rata) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
Total Tes 3 Tes Salah 2 Total Biaya $0.122 Waktu respons (rata-rata) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
Total Tes 3 Tes Salah 2 Total Biaya $0.095 Waktu respons (rata-rata) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.108 Waktu respons (rata-rata) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
Total Tes 3 Tes Salah 2 Total Biaya $0.750 Waktu respons (rata-rata) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
Total Tes 3 Tes Salah 2 Total Biaya $0.349 Waktu respons (rata-rata) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
Total Tes 3 Tes Salah 2 Total Biaya $0.385 Waktu respons (rata-rata) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
Total Tes 3 Tes Salah 2 Total Biaya $0.048 Waktu respons (rata-rata) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
Total Tes 3 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 71.4s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang