Peringkat Pemecahan teka-teki x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemecahan teka-teki, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

204

Model yang paling terdampak

Qwen3.5-Flash 3

Alasan kegagalan

Jawaban salah204 Tidak mengikuti instruksi90 Kesalahan API12 Format tambahan8 Kedaluwarsa5 Tidak ada jawaban3

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

145/145

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	3.1	$0.041	0/3	1.57s
Total Tes 3 Tes Salah 3 Total Biaya $0.041 Waktu respons (rata-rata) 1.57s
#168	Ling-2.6-1T none	Inclusionai	2	3.1	$0.016	0/3	5.36s
Total Tes 3 Tes Salah 3 Total Biaya $0.016 Waktu respons (rata-rata) 5.36s
#171	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
Total Tes 3 Tes Salah 3 Total Biaya $0.022 Waktu respons (rata-rata) 399ms
#173	Mistral Small 4 medium	Mistral	2	3.4	$0.096	0/3	2.17s
Total Tes 3 Tes Salah 3 Total Biaya $0.096 Waktu respons (rata-rata) 2.17s
#175	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
Total Tes 3 Tes Salah 3 Total Biaya $0.021 Waktu respons (rata-rata) 621ms
#180	GPT-4o-mini none	OpenAI	2	3.5	$0.010	0/3	1.21s
Total Tes 3 Tes Salah 3 Total Biaya $0.010 Waktu respons (rata-rata) 1.21s
#184	Ling-2.6-flash none	Inclusionai	2	2.9	$0.002	0/3	6.51s
Total Tes 3 Tes Salah 3 Total Biaya $0.002 Waktu respons (rata-rata) 6.51s
#189	Trinity Large Preview none	Arcee AI	2	3.6	$0.008	0/3	1.97s
Total Tes 3 Tes Salah 3 Total Biaya $0.008 Waktu respons (rata-rata) 1.97s
#193	Qwen3 Coder Next medium	Qwen	2	3.0	$0.032	0/3	1.25s
Total Tes 3 Tes Salah 3 Total Biaya $0.032 Waktu respons (rata-rata) 1.25s
#194	Cobuddy medium	Baidu	2	3.6	$0.000	0/3	12.8s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 12.8s
#198	Laguna M.1 none	Poolside	2	3.0	$0.009	0/3	891ms
Total Tes 3 Tes Salah 3 Total Biaya $0.009 Waktu respons (rata-rata) 891ms
#199	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 807ms
#200	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/3	12.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.166 Waktu respons (rata-rata) 12.9s
#203	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
Total Tes 3 Tes Salah 2 Total Biaya $0.057 Waktu respons (rata-rata) 473ms
#205	Hy3 preview none	Tencent	2	3.1	$0.003	0/3	4.56s
Total Tes 3 Tes Salah 3 Total Biaya $0.003 Waktu respons (rata-rata) 4.56s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemecahan teka-teki: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang