Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.7

Model terbaik

Kimi K3 3.0

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

210/210

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $3.112 Waktu respons (rata-rata) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.751 Waktu respons (rata-rata) 0ms
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.535 Waktu respons (rata-rata) 0ms
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $1.079 Waktu respons (rata-rata) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.746 Waktu respons (rata-rata) 0ms
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.163 Waktu respons (rata-rata) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.035 Waktu respons (rata-rata) 0ms
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 0ms
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.026 Waktu respons (rata-rata) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $5.599 Waktu respons (rata-rata) 0ms
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.547 Waktu respons (rata-rata) 0ms
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.010 Waktu respons (rata-rata) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 0ms
#209	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.020 Waktu respons (rata-rata) 0ms

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)