Peringkat Gabungan x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Gabungan, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Gemini 3 Flash Preview 2

Alasan kegagalan

Pemanggilan alat tidak valid91 Jawaban salah68 Tidak ada jawaban29 Kesalahan API26 Kedaluwarsa5 Format tambahan1 Tidak mengikuti instruksi1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

63/63

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#133	Gemini 3 PRO Preview medium	Google	1	1.5	$0.385	0/1	10.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.385 Waktu respons (rata-rata) 10.4s
#136	GPT-5.4 Mini none	OpenAI	1	6.5	$0.095	1/2	6.22s
Total Tes 2 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 6.22s
#138	Kimi K2.6 none	Moonshot AI	1	3.0	$0.184	0/2	77.8s
Total Tes 2 Tes Salah 2 Total Biaya $0.184 Waktu respons (rata-rata) 77.8s
#141	GLM 5 none	Z.ai	1	1.5	$0.041	0/1	4.98s
Total Tes 1 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 4.98s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.2	$0.247	0/2	129.3s
Total Tes 2 Tes Salah 2 Total Biaya $0.247 Waktu respons (rata-rata) 129.3s
#145	GLM 5V Turbo none	Z.ai	1	1.5	$0.052	0/1	6.51s
Total Tes 1 Tes Salah 1 Total Biaya $0.052 Waktu respons (rata-rata) 6.51s
#146	Owl Alpha medium	Openrouter	1	1.5	$0.000	0/1	10.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 10.0s
#147	Mimo V2 PRO none	Xiaomi	1	1.5	$0.045	0/1	6.58s
Total Tes 1 Tes Salah 1 Total Biaya $0.045 Waktu respons (rata-rata) 6.58s
#148	Owl Alpha none	Openrouter	1	1.5	$0.000	0/1	21.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 21.7s
#155	Kimi K2.5 none	Moonshot AI	1	2.8	$0.127	0/2	61.0s
Total Tes 2 Tes Salah 2 Total Biaya $0.127 Waktu respons (rata-rata) 61.0s
#156	Gemma 4 26B A4B none	Google	1	3.0	$0.015	0/2	37.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.015 Waktu respons (rata-rata) 37.2s
#157	Mimo V2 Omni none	Xiaomi	1	1.5	$0.021	0/1	5.96s
Total Tes 1 Tes Salah 1 Total Biaya $0.021 Waktu respons (rata-rata) 5.96s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Total Tes 2 Tes Salah 2 Total Biaya $0.142 Waktu respons (rata-rata) 6.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 10.4s
#162	Ling-2.6-1T none	Inclusionai	1	6.5	$0.016	1/2	23.8s
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 23.8s

←

1 2 3 4 5

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Gabungan: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang