Peringkat Gabungan x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Gabungan, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Gemini 3 Flash Preview 2

Alasan kegagalan

Pemanggilan alat tidak valid91 Jawaban salah68 Tidak ada jawaban29 Kesalahan API26 Kedaluwarsa5 Format tambahan1 Tidak mengikuti instruksi1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

63/63

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.621 Waktu respons (rata-rata) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
Total Tes 2 Tes Salah 2 Total Biaya $0.052 Waktu respons (rata-rata) 6.23s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
Total Tes 2 Tes Salah 1 Total Biaya $0.073 Waktu respons (rata-rata) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.333 Waktu respons (rata-rata) 64.7s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	28.4s
Total Tes 2 Tes Salah 1 Total Biaya $0.044 Waktu respons (rata-rata) 28.4s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Total Tes 2 Tes Salah 2 Total Biaya $0.035 Waktu respons (rata-rata) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
Total Tes 2 Tes Salah 2 Total Biaya $0.066 Waktu respons (rata-rata) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Total Tes 2 Tes Salah 2 Total Biaya $0.249 Waktu respons (rata-rata) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.017 Waktu respons (rata-rata) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
Total Tes 2 Tes Salah 2 Total Biaya $0.047 Waktu respons (rata-rata) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
Total Tes 2 Tes Salah 2 Total Biaya $0.046 Waktu respons (rata-rata) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Total Tes 2 Tes Salah 2 Total Biaya $0.073 Waktu respons (rata-rata) 243.6s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
Total Tes 2 Tes Salah 1 Total Biaya $0.122 Waktu respons (rata-rata) 109.7s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
Total Tes 2 Tes Salah 2 Total Biaya $0.106 Waktu respons (rata-rata) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Total Tes 2 Tes Salah 2 Total Biaya $0.095 Waktu respons (rata-rata) 21.1s

←

1 2 3 4 5

→

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Gabungan: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang