Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.7

Model terbaik

GPT-5.2 4.7

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

210/210

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#21	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
Total Tes 1 Tes Salah 1 Total Biaya $0.951 Waktu respons (rata-rata) 10.3s
#28	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
Total Tes 1 Tes Salah 1 Total Biaya $1.006 Waktu respons (rata-rata) 6.52s
#32	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
Total Tes 1 Tes Salah 1 Total Biaya $0.391 Waktu respons (rata-rata) 4.48s
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $3.112 Waktu respons (rata-rata) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.751 Waktu respons (rata-rata) 0ms
#55	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
Total Tes 1 Tes Salah 1 Total Biaya $0.519 Waktu respons (rata-rata) 6.69s
#56	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
Total Tes 1 Tes Salah 1 Total Biaya $0.756 Waktu respons (rata-rata) 9.62s
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.535 Waktu respons (rata-rata) 0ms
#75	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
Total Tes 1 Tes Salah 1 Total Biaya $0.777 Waktu respons (rata-rata) 13.7s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $1.079 Waktu respons (rata-rata) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.746 Waktu respons (rata-rata) 0ms
#93	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
Total Tes 1 Tes Salah 1 Total Biaya $0.457 Waktu respons (rata-rata) 12.5s
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.163 Waktu respons (rata-rata) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
Total Tes 1 Tes Salah 1 Total Biaya $0.035 Waktu respons (rata-rata) 0ms
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
Total Tes 1 Tes Salah 1 Total Biaya $0.187 Waktu respons (rata-rata) 2.57s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)