Peringkat Pemecahan teka-teki x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pemecahan teka-teki, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Total kegagalan

214

Model yang paling terdampak

Qwen3.6 27B 1

Alasan kegagalan

Jawaban salah214 Tidak mengikuti instruksi90 Kesalahan API12 Format tambahan10 Kedaluwarsa5 Tidak ada jawaban3

Kategori

Spesifik domain433 Trik anti-AI306 Pemrograman266 Pemecahan teka-teki214 Pengetahuan umum176 Gabungan71 Kecerdasan umum66 Kepatuhan instruksi65 Parsing dan ekstraksi data41 Pemanggilan alat4

149/149

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
Total Tes 3 Tes Salah 1 Total Biaya $0.779 Waktu respons (rata-rata) 61.1s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total Tes 3 Tes Salah 2 Total Biaya $0.200 Waktu respons (rata-rata) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
Total Tes 3 Tes Salah 1 Total Biaya $0.286 Waktu respons (rata-rata) 49.9s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total Tes 3 Tes Salah 2 Total Biaya $0.600 Waktu respons (rata-rata) 43.2s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
Total Tes 3 Tes Salah 2 Total Biaya $0.740 Waktu respons (rata-rata) 41.0s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.078 Waktu respons (rata-rata) 37.7s
#35	GLM 5.2 high	Z.ai	1	6.0	$0.796	1/3	33.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.796 Waktu respons (rata-rata) 33.7s
#214	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/3	32.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.036 Waktu respons (rata-rata) 32.3s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Total Tes 3 Tes Salah 1 Total Biaya $0.101 Waktu respons (rata-rata) 31.8s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Total Tes 3 Tes Salah 1 Total Biaya $0.535 Waktu respons (rata-rata) 31.6s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Total Tes 3 Tes Salah 2 Total Biaya $1.036 Waktu respons (rata-rata) 25.1s
#180	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Total Tes 3 Tes Salah 2 Total Biaya $0.163 Waktu respons (rata-rata) 24.9s
#179	North Mini Code none	Cohere	1	3.5	$0.000	0/3	24.4s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 24.4s
#174	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.025 Waktu respons (rata-rata) 24.3s
#156	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Total Tes 3 Tes Salah 3 Total Biaya $0.044 Waktu respons (rata-rata) 23.7s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Pemecahan teka-teki: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang