Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.8

Model terbaik

Gemini 3.6 Flash 10.0

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

216/216

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
Total Tes 1 Tes Salah 0 Total Biaya $0.544 Waktu respons (rata-rata) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
Total Tes 1 Tes Salah 0 Total Biaya $0.300 Waktu respons (rata-rata) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
Total Tes 1 Tes Salah 0 Total Biaya $0.085 Waktu respons (rata-rata) 3.35s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
Total Tes 1 Tes Salah 0 Total Biaya $0.391 Waktu respons (rata-rata) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
Total Tes 1 Tes Salah 0 Total Biaya $0.476 Waktu respons (rata-rata) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
Total Tes 1 Tes Salah 0 Total Biaya $0.505 Waktu respons (rata-rata) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
Total Tes 1 Tes Salah 0 Total Biaya $0.089 Waktu respons (rata-rata) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
Total Tes 1 Tes Salah 0 Total Biaya $0.128 Waktu respons (rata-rata) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
Total Tes 1 Tes Salah 0 Total Biaya $0.469 Waktu respons (rata-rata) 10.0s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
Total Tes 1 Tes Salah 0 Total Biaya $0.231 Waktu respons (rata-rata) 5.27s
#104	Gemini 3.5 Flash-Lite medium	Google	10.0	6.5	$0.369	1/1	2.63s
Total Tes 1 Tes Salah 0 Total Biaya $0.369 Waktu respons (rata-rata) 2.63s
#105	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
Total Tes 1 Tes Salah 0 Total Biaya $0.779 Waktu respons (rata-rata) 16.9s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	1/1	15.0s
Total Tes 1 Tes Salah 0 Total Biaya $0.018 Waktu respons (rata-rata) 15.0s
#107	MiMo-V2.5 medium	Xiaomi	10.0	6.5	$0.082	1/1	7.29s
Total Tes 1 Tes Salah 0 Total Biaya $0.082 Waktu respons (rata-rata) 7.29s
#108	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
Total Tes 1 Tes Salah 0 Total Biaya $0.068 Waktu respons (rata-rata) 3.01s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)