Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.7

Model terbaik

Kimi K3 3.0

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

210/210

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.001 Waktu respons (rata-rata) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
Total Tes 1 Tes Salah 0 Total Biaya $0.030 Waktu respons (rata-rata) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Total Tes 1 Tes Salah 0 Total Biaya $0.021 Waktu respons (rata-rata) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Total Tes 1 Tes Salah 0 Total Biaya $0.008 Waktu respons (rata-rata) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Total Tes 1 Tes Salah 0 Total Biaya $0.022 Waktu respons (rata-rata) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
Total Tes 1 Tes Salah 0 Total Biaya $0.093 Waktu respons (rata-rata) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
Total Tes 1 Tes Salah 0 Total Biaya $0.017 Waktu respons (rata-rata) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Total Tes 1 Tes Salah 0 Total Biaya $0.247 Waktu respons (rata-rata) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
Total Tes 1 Tes Salah 0 Total Biaya $0.007 Waktu respons (rata-rata) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
Total Tes 1 Tes Salah 0 Total Biaya $0.025 Waktu respons (rata-rata) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
Total Tes 1 Tes Salah 0 Total Biaya $0.106 Waktu respons (rata-rata) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Total Tes 1 Tes Salah 0 Total Biaya $0.025 Waktu respons (rata-rata) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Total Tes 1 Tes Salah 0 Total Biaya $0.025 Waktu respons (rata-rata) 2.47s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)