Peringkat Gabungan x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Gabungan, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Gemini 3 Flash Preview 2

Alasan kegagalan

Pemanggilan alat tidak valid91 Jawaban salah68 Tidak ada jawaban29 Kesalahan API26 Kedaluwarsa5 Format tambahan1 Tidak mengikuti instruksi1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

63/63

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.177 Waktu respons (rata-rata) 10.2s
#139	GPT-5.4 none	OpenAI	2	3.0	$0.397	0/2	9.26s
Total Tes 2 Tes Salah 2 Total Biaya $0.397 Waktu respons (rata-rata) 9.26s
#165	Mistral Small 4 none	Mistral	2	3.0	$0.022	0/2	7.44s
Total Tes 2 Tes Salah 2 Total Biaya $0.022 Waktu respons (rata-rata) 7.44s
#177	Nemotron 3 Super none	NVIDIA	2	3.0	$0.008	0/2	18.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 18.2s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
Total Tes 2 Tes Salah 2 Total Biaya $0.030 Waktu respons (rata-rata) 2.56s
#20	Grok 4.5 low	X AI	1	6.5	$0.935	1/2	12.8s
Total Tes 2 Tes Salah 1 Total Biaya $0.935 Waktu respons (rata-rata) 12.8s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
Total Tes 2 Tes Salah 1 Total Biaya $0.751 Waktu respons (rata-rata) 66.0s
#59	Qwen3.7 Max none	Qwen	1	6.5	$0.197	1/2	37.2s
Total Tes 2 Tes Salah 1 Total Biaya $0.197 Waktu respons (rata-rata) 37.2s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	1/2	8.37s
Total Tes 2 Tes Salah 1 Total Biaya $0.524 Waktu respons (rata-rata) 8.37s
#87	GPT-5.5 none	OpenAI	1	6.5	$0.544	1/2	8.90s
Total Tes 2 Tes Salah 1 Total Biaya $0.544 Waktu respons (rata-rata) 8.90s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.085 Waktu respons (rata-rata) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
Total Tes 2 Tes Salah 2 Total Biaya $0.476 Waktu respons (rata-rata) 183.1s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
Total Tes 2 Tes Salah 1 Total Biaya $0.231 Waktu respons (rata-rata) 61.6s
#103	Qwen3.5-27B none	Qwen	1	6.4	$0.090	1/2	39.4s
Total Tes 2 Tes Salah 1 Total Biaya $0.090 Waktu respons (rata-rata) 39.4s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
Total Tes 2 Tes Salah 2 Total Biaya $0.646 Waktu respons (rata-rata) 160.6s

1 2 3 4 5

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Gabungan: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang