Peringkat model Gabungan

Lihat model AI mana yang paling baik di Gabungan, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

Rata-rata Skor Gabungan

5.6

Model terbaik

Gemini 3.6 Flash 10.0

Alasan kegagalan

Dengan alasan kegagalan Pemanggilan alat tidak valid91 Dengan alasan kegagalan Jawaban salah69 Dengan alasan kegagalan Tidak ada jawaban32 Dengan alasan kegagalan Kesalahan API26 Dengan alasan kegagalan Kedaluwarsa5 Dengan alasan kegagalan Format tambahan1 Dengan alasan kegagalan Tidak mengikuti instruksi1

216/216

Peringkat	Model	Perusahaan	Skor Gabungan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
Total Tes 2 Tes Salah 1 Total Biaya $0.048 Waktu respons (rata-rata) 19.6s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 55.9s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
Total Tes 2 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 23.8s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
Total Tes 2 Tes Salah 2 Total Biaya $1.694 Waktu respons (rata-rata) 70.3s
#65	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.177 Waktu respons (rata-rata) 10.2s
#83	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
Total Tes 2 Tes Salah 2 Total Biaya $1.079 Waktu respons (rata-rata) 0ms
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.300 Waktu respons (rata-rata) 14.4s
#93	Gemini 3 Flash Preview none	Google	3.8	6.8	$0.085	0/2	12.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.085 Waktu respons (rata-rata) 12.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
Total Tes 2 Tes Salah 2 Total Biaya $0.746 Waktu respons (rata-rata) 817.6s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
Total Tes 2 Tes Salah 2 Total Biaya $0.476 Waktu respons (rata-rata) 183.1s
#98	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
Total Tes 1 Tes Salah 1 Total Biaya $0.457 Waktu respons (rata-rata) 15.1s
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
Total Tes 2 Tes Salah 2 Total Biaya $0.369 Waktu respons (rata-rata) 28.7s
#105	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
Total Tes 2 Tes Salah 2 Total Biaya $0.779 Waktu respons (rata-rata) 584.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
Total Tes 2 Tes Salah 2 Total Biaya $0.646 Waktu respons (rata-rata) 160.6s
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
Total Tes 2 Tes Salah 2 Total Biaya $0.621 Waktu respons (rata-rata) 161.2s

Peringkat Gabungan

Filter model

Model teratas menurut Skor Gabungan

Skor Gabungan vs total biaya

Model teratas menurut Waktu respons (rata-rata)