Peringkat model Pemanggilan alat

Lihat model AI mana yang paling baik di Pemanggilan alat, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Pemanggilan alat

8.8

Model terbaik

Kimi K3 3.0

Alasan kegagalan

Dengan alasan kegagalan Kesalahan API17 Dengan alasan kegagalan Pemanggilan alat tidak valid9 Dengan alasan kegagalan Tidak mengikuti instruksi8 Dengan alasan kegagalan Jawaban salah3 Dengan alasan kegagalan Tidak ada jawaban2

216/216

Peringkat	Model	Perusahaan	Skor Pemanggilan alat	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
Total Tes 1 Tes Salah 0 Total Biaya $0.073 Waktu respons (rata-rata) 3.67s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
Total Tes 1 Tes Salah 0 Total Biaya $0.524 Waktu respons (rata-rata) 3.70s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	1/1	3.80s
Total Tes 1 Tes Salah 0 Total Biaya $0.115 Waktu respons (rata-rata) 3.80s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
Total Tes 1 Tes Salah 0 Total Biaya $0.642 Waktu respons (rata-rata) 3.81s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
Total Tes 1 Tes Salah 0 Total Biaya $0.544 Waktu respons (rata-rata) 3.90s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
Total Tes 1 Tes Salah 0 Total Biaya $0.197 Waktu respons (rata-rata) 3.92s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
Total Tes 1 Tes Salah 0 Total Biaya $0.000 Waktu respons (rata-rata) 3.93s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	1/1	3.94s
Total Tes 1 Tes Salah 0 Total Biaya $0.066 Waktu respons (rata-rata) 3.94s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
Total Tes 1 Tes Salah 0 Total Biaya $0.738 Waktu respons (rata-rata) 4.00s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
Total Tes 1 Tes Salah 0 Total Biaya $0.584 Waktu respons (rata-rata) 4.05s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
Total Tes 1 Tes Salah 0 Total Biaya $0.661 Waktu respons (rata-rata) 4.11s
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
Total Tes 1 Tes Salah 0 Total Biaya $0.515 Waktu respons (rata-rata) 4.16s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
Total Tes 1 Tes Salah 0 Total Biaya $1.477 Waktu respons (rata-rata) 4.17s
#210	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
Total Tes 1 Tes Salah 0 Total Biaya $0.036 Waktu respons (rata-rata) 4.31s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
Total Tes 1 Tes Salah 0 Total Biaya $0.045 Waktu respons (rata-rata) 4.39s

Peringkat Pemanggilan alat

Filter model

Model teratas menurut Skor Pemanggilan alat

Skor Pemanggilan alat vs total biaya

Model teratas menurut Waktu respons (rata-rata)