Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Metrik ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.7

Model terbaik

Hy3 preview 2.8

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

210/210

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#131	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
Total Tes 1 Tes Salah 1 Total Biaya $0.750 Waktu respons (rata-rata) 12.4s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Total Tes 1 Tes Salah 1 Total Biaya $0.095 Waktu respons (rata-rata) 2.32s
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.061 Waktu respons (rata-rata) 0ms
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.016 Waktu respons (rata-rata) 25.7s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
Total Tes 1 Tes Salah 1 Total Biaya $0.147 Waktu respons (rata-rata) 2.50s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
Total Tes 1 Tes Salah 1 Total Biaya $0.002 Waktu respons (rata-rata) 18.8s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.026 Waktu respons (rata-rata) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $5.599 Waktu respons (rata-rata) 0ms
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.79s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.83s
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.547 Waktu respons (rata-rata) 0ms
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Total Tes 1 Tes Salah 1 Total Biaya $0.004 Waktu respons (rata-rata) 1.93s
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.010 Waktu respons (rata-rata) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 0ms

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)