Peringkat Spesifik domain x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Total kegagalan

433

Model yang paling terdampak

LongCat 2.0 1

Alasan kegagalan

Jawaban salah433 Kedaluwarsa43 Format tambahan17 Tidak ada jawaban8 Kesalahan API7 Tidak mengikuti instruksi1

Kategori

Spesifik domain433 Trik anti-AI306 Pemrograman266 Pemecahan teka-teki214 Pengetahuan umum176 Gabungan71 Kecerdasan umum66 Kepatuhan instruksi65 Parsing dan ekstraksi data41 Pemanggilan alat4

206/206

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#102	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/3	400.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.469 Waktu respons (rata-rata) 400.3s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.478 Waktu respons (rata-rata) 339.9s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
Total Tes 3 Tes Salah 3 Total Biaya $1.707 Waktu respons (rata-rata) 332.1s
#199	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.340 Waktu respons (rata-rata) 237.3s
#134	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
Total Tes 3 Tes Salah 2 Total Biaya $0.114 Waktu respons (rata-rata) 204.0s
#25	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.928 Waktu respons (rata-rata) 198.9s
#32	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
Total Tes 3 Tes Salah 1 Total Biaya $1.006 Waktu respons (rata-rata) 186.4s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Total Tes 3 Tes Salah 2 Total Biaya $0.779 Waktu respons (rata-rata) 181.7s
#204	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.166 Waktu respons (rata-rata) 174.6s
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.108 Waktu respons (rata-rata) 170.5s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
Total Tes 3 Tes Salah 2 Total Biaya $4.137 Waktu respons (rata-rata) 164.1s
#52	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
Total Tes 3 Tes Salah 2 Total Biaya $1.097 Waktu respons (rata-rata) 158.0s
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.200 Waktu respons (rata-rata) 151.5s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Total Tes 3 Tes Salah 3 Total Biaya $1.207 Waktu respons (rata-rata) 149.6s
#120	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
Total Tes 3 Tes Salah 2 Total Biaya $0.139 Waktu respons (rata-rata) 146.5s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Spesifik domain: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang