Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.7

Model terbaik

GPT-5.2 4.7

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

210/210

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#131	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.750 Waktu respons (rata-rata) 12.4s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 2.32s
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
Total Tes 1 Tes Salah 1 Total Biaya $0.015 Waktu respons (rata-rata) 17.8s
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 0ms
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 25.7s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
Total Tes 1 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 2.50s
#172	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.163 Waktu respons (rata-rata) 12.0s
#176	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
Total Tes 1 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 7.05s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
Total Tes 1 Tes Salah 1 Total Biaya $0.008 Waktu respons (rata-rata) 16.0s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
Total Tes 1 Tes Salah 1 Total Biaya $0.002 Waktu respons (rata-rata) 18.8s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.026 Waktu respons (rata-rata) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $5.599 Waktu respons (rata-rata) 0ms
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.069 Waktu respons (rata-rata) 27.7s
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.79s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.83s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)