Peringkat Pemecahan teka-teki x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemecahan teka-teki, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

204

Model yang paling terdampak

Qwen3.5-Flash 3

Alasan kegagalan

Jawaban salah204 Tidak mengikuti instruksi90 Kesalahan API12 Format tambahan8 Kedaluwarsa5 Tidak ada jawaban3

Kategori

Spesifik domain421 Trik anti-AI293 Pemrograman259 Pemecahan teka-teki204 Pengetahuan umum172 Gabungan69 Kecerdasan umum62 Kepatuhan instruksi61 Parsing dan ekstraksi data41 Pemanggilan alat3

145/145

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.779 Waktu respons (rata-rata) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Total Tes 3 Tes Salah 1 Total Biaya $0.535 Waktu respons (rata-rata) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
Total Tes 3 Tes Salah 1 Total Biaya $0.777 Waktu respons (rata-rata) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.078 Waktu respons (rata-rata) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.600 Waktu respons (rata-rata) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Total Tes 3 Tes Salah 2 Total Biaya $0.093 Waktu respons (rata-rata) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Total Tes 3 Tes Salah 1 Total Biaya $0.101 Waktu respons (rata-rata) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
Total Tes 3 Tes Salah 1 Total Biaya $0.524 Waktu respons (rata-rata) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Total Tes 3 Tes Salah 2 Total Biaya $0.187 Waktu respons (rata-rata) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
Total Tes 3 Tes Salah 1 Total Biaya $0.544 Waktu respons (rata-rata) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
Total Tes 3 Tes Salah 1 Total Biaya $0.085 Waktu respons (rata-rata) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
Total Tes 3 Tes Salah 1 Total Biaya $0.746 Waktu respons (rata-rata) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
Total Tes 3 Tes Salah 1 Total Biaya $0.145 Waktu respons (rata-rata) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
Total Tes 3 Tes Salah 1 Total Biaya $0.476 Waktu respons (rata-rata) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
Total Tes 3 Tes Salah 1 Total Biaya $0.457 Waktu respons (rata-rata) 10.2s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemecahan teka-teki: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang