Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.8

Model terbaik

GPT-5.2 4.7

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

216/216

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	1/1	3.51s
Total Tes 1 Tes Salah 0 Total Biaya $0.047 Waktu respons (rata-rata) 3.51s
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
Total Tes 1 Tes Salah 0 Total Biaya $0.019 Waktu respons (rata-rata) 6.91s
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	1/1	2.97s
Total Tes 1 Tes Salah 0 Total Biaya $0.046 Waktu respons (rata-rata) 2.97s
#130	Qwen3.6 Flash none	Qwen	10.0	6.1	$0.062	1/1	2.49s
Total Tes 1 Tes Salah 0 Total Biaya $0.062 Waktu respons (rata-rata) 2.49s
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
Total Tes 1 Tes Salah 0 Total Biaya $0.073 Waktu respons (rata-rata) 3.67s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	6.1	$0.122	1/1	4.42s
Total Tes 1 Tes Salah 0 Total Biaya $0.122 Waktu respons (rata-rata) 4.42s
#133	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
Total Tes 1 Tes Salah 0 Total Biaya $0.106 Waktu respons (rata-rata) 2.30s
#134	GPT-5 Nano medium	OpenAI	10.0	6.1	$0.114	1/1	33.3s
Total Tes 1 Tes Salah 0 Total Biaya $0.114 Waktu respons (rata-rata) 33.3s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	1/1	2.99s
Total Tes 1 Tes Salah 0 Total Biaya $0.095 Waktu respons (rata-rata) 2.99s
#136	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	1/1	11.9s
Total Tes 1 Tes Salah 0 Total Biaya $0.108 Waktu respons (rata-rata) 11.9s
#138	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
Total Tes 1 Tes Salah 0 Total Biaya $0.349 Waktu respons (rata-rata) 3.10s
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	1/1	12.0s
Total Tes 1 Tes Salah 0 Total Biaya $0.385 Waktu respons (rata-rata) 12.0s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	1/1	14.0s
Total Tes 1 Tes Salah 0 Total Biaya $0.683 Waktu respons (rata-rata) 14.0s
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	1/1	78.8s
Total Tes 1 Tes Salah 0 Total Biaya $0.048 Waktu respons (rata-rata) 78.8s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
Total Tes 1 Tes Salah 0 Total Biaya $0.000 Waktu respons (rata-rata) 3.93s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)