Peringkat model Gabungan

Lihat model AI mana yang paling baik di Gabungan, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Metrik ↑.

Model yang ditampilkan

Rata-rata Skor Gabungan

5.5

Model terbaik

Gemini 3 PRO Preview 1.5

Alasan kegagalan

Dengan alasan kegagalan Pemanggilan alat tidak valid91 Dengan alasan kegagalan Jawaban salah68 Dengan alasan kegagalan Tidak ada jawaban29 Dengan alasan kegagalan Kesalahan API26 Dengan alasan kegagalan Kedaluwarsa5 Dengan alasan kegagalan Format tambahan1 Dengan alasan kegagalan Tidak mengikuti instruksi1

210/210

Peringkat	Model	Perusahaan	Skor Gabungan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#195	Elephant Alpha medium	Openrouter	1.5	4.3	$0.000	0/1	3.70s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 3.70s
#196	Hunter Alpha none	OpenRouter	1.5	4.2	$0.000	0/1	15.2s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 15.2s
#197	Grok 4.20 none	X AI	1.5	4.1	$0.057	0/1	6.04s
Total Tes 1 Tes Salah 1 Total Biaya $0.057 Waktu respons (rata-rata) 6.04s
#198	Laguna Xs.2 medium	Poolside	1.5	4.1	$0.015	0/1	15.9s
Total Tes 1 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 15.9s
#199	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
Total Tes 1 Tes Salah 1 Total Biaya $0.003 Waktu respons (rata-rata) 35.8s
#200	MiMo-V2-Flash none	Xiaomi	1.5	4.0	$0.025	0/1	2.87s
Total Tes 1 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 2.87s
#202	Grok Build 0.1 none	X AI	1.5	4.0	$0.547	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.547 Waktu respons (rata-rata) 0ms
#203	Grok 4.1 Fast none	X AI	1.5	3.8	$0.008	0/1	3.33s
Total Tes 1 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 3.33s
#205	Laguna Xs.2 none	Poolside	1.5	3.8	$0.004	0/1	2.01s
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 2.01s
#206	gpt-oss-120b none	OpenAI	1.5	3.7	$0.010	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.010 Waktu respons (rata-rata) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.5	3.4	$0.000	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1.5	3.2	$0.000	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 0ms
#209	Step 3.5 Flash none	Stepfun	1.5	2.3	$0.020	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.020 Waktu respons (rata-rata) 0ms
#210	LFM2-24B-A2B none	Liquid	1.5	2.2	$0.001	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.001 Waktu respons (rata-rata) 0ms
#109	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.333 Waktu respons (rata-rata) 64.7s

Peringkat Gabungan

Filter model

Model teratas menurut Skor Gabungan

Skor Gabungan vs total biaya

Model teratas menurut Waktu respons (rata-rata)