Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.8

Model terbaik

Gemini 3.6 Flash 10.0

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

216/216

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
Total Tes 1 Tes Salah 0 Total Biaya $0.096 Waktu respons (rata-rata) 7.40s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
Total Tes 1 Tes Salah 0 Total Biaya $0.524 Waktu respons (rata-rata) 3.70s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
Total Tes 1 Tes Salah 0 Total Biaya $0.187 Waktu respons (rata-rata) 16.9s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
Total Tes 1 Tes Salah 0 Total Biaya $0.738 Waktu respons (rata-rata) 4.00s
#90	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
Total Tes 1 Tes Salah 0 Total Biaya $1.207 Waktu respons (rata-rata) 2.79s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
Total Tes 1 Tes Salah 0 Total Biaya $0.544 Waktu respons (rata-rata) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
Total Tes 1 Tes Salah 0 Total Biaya $0.300 Waktu respons (rata-rata) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
Total Tes 1 Tes Salah 0 Total Biaya $0.085 Waktu respons (rata-rata) 3.35s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
Total Tes 1 Tes Salah 0 Total Biaya $0.145 Waktu respons (rata-rata) 1.76s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
Total Tes 1 Tes Salah 0 Total Biaya $0.391 Waktu respons (rata-rata) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
Total Tes 1 Tes Salah 0 Total Biaya $0.476 Waktu respons (rata-rata) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
Total Tes 1 Tes Salah 0 Total Biaya $0.505 Waktu respons (rata-rata) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
Total Tes 1 Tes Salah 0 Total Biaya $0.089 Waktu respons (rata-rata) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
Total Tes 1 Tes Salah 0 Total Biaya $0.128 Waktu respons (rata-rata) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
Total Tes 1 Tes Salah 0 Total Biaya $0.469 Waktu respons (rata-rata) 10.0s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)