Peringkat Kecerdasan umum x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

59/59

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
Total Tes 1 Tes Salah 1 Total Biaya $0.935 Waktu respons (rata-rata) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
Total Tes 1 Tes Salah 1 Total Biaya $1.928 Waktu respons (rata-rata) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
Total Tes 1 Tes Salah 1 Total Biaya $0.515 Waktu respons (rata-rata) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
Total Tes 1 Tes Salah 1 Total Biaya $1.055 Waktu respons (rata-rata) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
Total Tes 1 Tes Salah 1 Total Biaya $0.676 Waktu respons (rata-rata) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
Total Tes 1 Tes Salah 1 Total Biaya $1.017 Waktu respons (rata-rata) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
Total Tes 1 Tes Salah 1 Total Biaya $1.097 Waktu respons (rata-rata) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.323 Waktu respons (rata-rata) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
Total Tes 1 Tes Salah 1 Total Biaya $0.352 Waktu respons (rata-rata) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
Total Tes 1 Tes Salah 1 Total Biaya $0.519 Waktu respons (rata-rata) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.478 Waktu respons (rata-rata) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.387 Waktu respons (rata-rata) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
Total Tes 1 Tes Salah 1 Total Biaya $0.454 Waktu respons (rata-rata) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
Total Tes 1 Tes Salah 1 Total Biaya $0.482 Waktu respons (rata-rata) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.317 Waktu respons (rata-rata) 25.3s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang