Peringkat Trik anti-AI x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Trik anti-AI, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Total kegagalan

293

Model yang paling terdampak

DeepSeek V4 Pro 2

Alasan kegagalan

Jawaban salah293 Tidak mengikuti instruksi33 Format tambahan20 Kesalahan API14 Kedaluwarsa4 Tidak ada jawaban4

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

140/140

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#82	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
Total Tes 4 Tes Salah 4 Total Biaya $0.096 Waktu respons (rata-rata) 4.02s
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
Total Tes 4 Tes Salah 4 Total Biaya $0.066 Waktu respons (rata-rata) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
Total Tes 4 Tes Salah 4 Total Biaya $0.017 Waktu respons (rata-rata) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
Total Tes 4 Tes Salah 4 Total Biaya $0.062 Waktu respons (rata-rata) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
Total Tes 4 Tes Salah 4 Total Biaya $0.073 Waktu respons (rata-rata) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
Total Tes 4 Tes Salah 4 Total Biaya $0.106 Waktu respons (rata-rata) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
Total Tes 4 Tes Salah 4 Total Biaya $0.095 Waktu respons (rata-rata) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
Total Tes 4 Tes Salah 4 Total Biaya $0.095 Waktu respons (rata-rata) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
Total Tes 4 Tes Salah 4 Total Biaya $0.397 Waktu respons (rata-rata) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
Total Tes 4 Tes Salah 4 Total Biaya $0.045 Waktu respons (rata-rata) 1.80s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
Total Tes 4 Tes Salah 4 Total Biaya $0.000 Waktu respons (rata-rata) 2.78s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
Total Tes 4 Tes Salah 4 Total Biaya $0.044 Waktu respons (rata-rata) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
Total Tes 4 Tes Salah 4 Total Biaya $0.164 Waktu respons (rata-rata) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
Total Tes 4 Tes Salah 4 Total Biaya $0.087 Waktu respons (rata-rata) 2.83s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
Total Tes 4 Tes Salah 4 Total Biaya $0.068 Waktu respons (rata-rata) 2.67s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Trik anti-AI: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang