Peringkat model Gabungan

Lihat model AI mana yang paling baik di Gabungan, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Gabungan

5.6

Model terbaik

Muse Spark 1.1 5.9

Alasan kegagalan

Dengan alasan kegagalan Pemanggilan alat tidak valid91 Dengan alasan kegagalan Jawaban salah69 Dengan alasan kegagalan Tidak ada jawaban32 Dengan alasan kegagalan Kesalahan API26 Dengan alasan kegagalan Kedaluwarsa5 Dengan alasan kegagalan Format tambahan1 Dengan alasan kegagalan Tidak mengikuti instruksi1

216/216

Peringkat	Model	Perusahaan	Skor Gabungan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#183	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 18.2s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
Total Tes 2 Tes Salah 2 Total Biaya $0.002 Waktu respons (rata-rata) 35.7s
#185	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/2	0ms
Total Tes 2 Tes Salah 2 Total Biaya $0.026 Waktu respons (rata-rata) 0ms
#186	GPT-5.4 Nano none	OpenAI	3.0	4.8	$0.041	0/2	14.7s
Total Tes 2 Tes Salah 2 Total Biaya $0.041 Waktu respons (rata-rata) 14.7s
#187	Grok 4.20 Multi Agent Beta medium	X AI	1.5	4.8	$5.599	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $5.599 Waktu respons (rata-rata) 0ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
Total Tes 2 Tes Salah 2 Total Biaya $0.067 Waktu respons (rata-rata) 73.0s
#189	Trinity Large Preview none	Arcee AI	1.5	4.8	$0.008	0/1	8.91s
Total Tes 1 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 8.91s
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 30.5s
#192	Laguna M.1 medium	Poolside	1.5	4.7	$0.033	0/1	53.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.033 Waktu respons (rata-rata) 53.1s
#193	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/2	14.6s
Total Tes 2 Tes Salah 2 Total Biaya $0.032 Waktu respons (rata-rata) 14.6s
#194	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 47.4s
#195	Mercury 2 none	Inception	3.0	4.6	$0.030	0/2	2.56s
Total Tes 2 Tes Salah 2 Total Biaya $0.030 Waktu respons (rata-rata) 2.56s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.340 Waktu respons (rata-rata) 83.2s
#197	Grok 4.20 Beta none	X AI	1.5	4.4	$0.087	0/1	6.48s
Total Tes 1 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 6.48s
#198	Laguna M.1 none	Poolside	1.5	4.4	$0.009	0/1	4.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.009 Waktu respons (rata-rata) 4.32s

Peringkat Gabungan

Filter model

Model teratas menurut Skor Gabungan

Skor Gabungan vs total biaya

Model teratas menurut Waktu respons (rata-rata)