Peringkat Kecerdasan umum x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Grok 4.5 1

Alasan kegagalan

Tidak mengikuti instruksi78 Jawaban salah59 Kesalahan API12 Kedaluwarsa4

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

59/59

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
Total Tes 1 Tes Salah 1 Total Biaya $0.046 Waktu respons (rata-rata) 992ms
#129	Nemotron 3 Ultra none	NVIDIA	1	5.0	$0.095	0/1	13.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 13.5s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
Total Tes 1 Tes Salah 1 Total Biaya $0.349 Waktu respons (rata-rata) 1.03s
#134	Mimo V2 Omni medium	Xiaomi	1	5.4	$0.683	0/1	3.61s
Total Tes 1 Tes Salah 1 Total Biaya $0.683 Waktu respons (rata-rata) 3.61s
#137	North Mini Code medium	Cohere	1	5.1	$0.000	0/1	25.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 25.1s
#139	GPT-5.4 none	OpenAI	1	4.4	$0.397	0/1	1.78s
Total Tes 1 Tes Salah 1 Total Biaya $0.397 Waktu respons (rata-rata) 1.78s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	5.1	$0.077	0/1	7.10s
Total Tes 1 Tes Salah 1 Total Biaya $0.077 Waktu respons (rata-rata) 7.10s
#150	DeepSeek V4 Flash none	DeepSeek	1	4.2	$0.044	0/1	23.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.044 Waktu respons (rata-rata) 23.7s
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
Total Tes 1 Tes Salah 1 Total Biaya $0.164 Waktu respons (rata-rata) 790ms
#154	MiMo-V2.5-Pro none	Xiaomi	1	4.0	$0.068	0/1	2.58s
Total Tes 1 Tes Salah 1 Total Biaya $0.068 Waktu respons (rata-rata) 2.58s
#157	Mimo V2 Omni none	Xiaomi	1	4.1	$0.021	0/1	2.33s
Total Tes 1 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 2.33s
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
Total Tes 1 Tes Salah 1 Total Biaya $0.142 Waktu respons (rata-rata) 1.00s
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
Total Tes 1 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 529ms
#161	Qwen3.6 35B A3B none	Qwen	1	4.4	$0.061	0/1	3.51s
Total Tes 1 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 3.51s
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
Total Tes 1 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 859ms

←

1 2 3 4

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Kecerdasan umum: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang