Peringkat model Gabungan

Lihat model AI mana yang paling baik di Gabungan, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Gabungan

5.6

Model terbaik

Muse Spark 1.1 5.9

Alasan kegagalan

Dengan alasan kegagalan Pemanggilan alat tidak valid91 Dengan alasan kegagalan Jawaban salah69 Dengan alasan kegagalan Tidak ada jawaban32 Dengan alasan kegagalan Kesalahan API26 Dengan alasan kegagalan Kedaluwarsa5 Dengan alasan kegagalan Format tambahan1 Dengan alasan kegagalan Tidak mengikuti instruksi1

216/216

Peringkat	Model	Perusahaan	Skor Gabungan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#114	Ring-2.6-1T medium	Inclusionai	7.3	6.3	$0.103	1/2	257.3s
Total Tes 2 Tes Salah 1 Total Biaya $0.103 Waktu respons (rata-rata) 257.3s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
Total Tes 2 Tes Salah 1 Total Biaya $0.044 Waktu respons (rata-rata) 28.4s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
Total Tes 2 Tes Salah 1 Total Biaya $0.548 Waktu respons (rata-rata) 31.4s
#120	Qwen3.5-Flash medium	Qwen	6.4	6.2	$0.139	1/2	266.6s
Total Tes 2 Tes Salah 1 Total Biaya $0.139 Waktu respons (rata-rata) 266.6s
#127	gpt-oss-120b medium	OpenAI	6.5	6.1	$0.019	1/2	24.0s
Total Tes 2 Tes Salah 1 Total Biaya $0.019 Waktu respons (rata-rata) 24.0s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.4	6.1	$0.122	1/2	109.7s
Total Tes 2 Tes Salah 1 Total Biaya $0.122 Waktu respons (rata-rata) 109.7s
#134	GPT-5 Nano medium	OpenAI	6.4	6.1	$0.114	1/2	146.9s
Total Tes 2 Tes Salah 1 Total Biaya $0.114 Waktu respons (rata-rata) 146.9s
#136	Step 3.5 Flash medium	Stepfun	6.5	6.0	$0.108	1/2	813.7s
Total Tes 2 Tes Salah 1 Total Biaya $0.108 Waktu respons (rata-rata) 813.7s
#142	GPT-5.4 Mini none	OpenAI	6.5	5.9	$0.095	1/2	6.22s
Total Tes 2 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 6.22s
#146	Nemotron 3 Super medium	NVIDIA	6.4	5.7	$0.055	1/2	259.9s
Total Tes 2 Tes Salah 1 Total Biaya $0.055 Waktu respons (rata-rata) 259.9s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
Total Tes 2 Tes Salah 1 Total Biaya $0.077 Waktu respons (rata-rata) 74.5s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
Total Tes 2 Tes Salah 1 Total Biaya $0.048 Waktu respons (rata-rata) 19.6s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 55.9s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 23.8s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	42.1s
Total Tes 2 Tes Salah 0 Total Biaya $0.831 Waktu respons (rata-rata) 42.1s

Peringkat Gabungan

Filter model

Model teratas menurut Skor Gabungan

Skor Gabungan vs total biaya

Model teratas menurut Waktu respons (rata-rata)