Peringkat Kecerdasan umum x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

59/59

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
Total Tes 1 Tes Salah 1 Total Biaya $0.096 Waktu respons (rata-rata) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
Total Tes 1 Tes Salah 1 Total Biaya $0.524 Waktu respons (rata-rata) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
Total Tes 1 Tes Salah 1 Total Biaya $0.738 Waktu respons (rata-rata) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
Total Tes 1 Tes Salah 1 Total Biaya $1.207 Waktu respons (rata-rata) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.391 Waktu respons (rata-rata) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
Total Tes 1 Tes Salah 1 Total Biaya $0.476 Waktu respons (rata-rata) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
Total Tes 1 Tes Salah 1 Total Biaya $0.151 Waktu respons (rata-rata) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.469 Waktu respons (rata-rata) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
Total Tes 1 Tes Salah 1 Total Biaya $0.231 Waktu respons (rata-rata) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
Total Tes 1 Tes Salah 1 Total Biaya $0.068 Waktu respons (rata-rata) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
Total Tes 1 Tes Salah 1 Total Biaya $0.621 Waktu respons (rata-rata) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
Total Tes 1 Tes Salah 1 Total Biaya $0.073 Waktu respons (rata-rata) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
Total Tes 1 Tes Salah 1 Total Biaya $0.044 Waktu respons (rata-rata) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
Total Tes 1 Tes Salah 1 Total Biaya $0.249 Waktu respons (rata-rata) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
Total Tes 1 Tes Salah 1 Total Biaya $0.017 Waktu respons (rata-rata) 615ms

←

1 2 3 4

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang