Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

Claude Sonnet 4.6 2.9

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah421 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

216/216

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	3/3	3.96s
Total Tes 3 Tes Salah 0 Total Biaya $0.517 Waktu respons (rata-rata) 3.96s
#101	GLM 5.2 none	Z.ai	5.3	6.6	$0.128	1/3	4.04s
Total Tes 3 Tes Salah 2 Total Biaya $0.128 Waktu respons (rata-rata) 4.04s
#179	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
Total Tes 3 Tes Salah 3 Total Biaya $0.054 Waktu respons (rata-rata) 4.17s
#68	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
Total Tes 3 Tes Salah 3 Total Biaya $0.115 Waktu respons (rata-rata) 4.21s
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
Total Tes 3 Tes Salah 2 Total Biaya $0.127 Waktu respons (rata-rata) 4.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
Total Tes 3 Tes Salah 2 Total Biaya $0.122 Waktu respons (rata-rata) 4.43s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
Total Tes 3 Tes Salah 3 Total Biaya $0.048 Waktu respons (rata-rata) 4.87s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/3	4.95s
Total Tes 3 Tes Salah 3 Total Biaya $0.002 Waktu respons (rata-rata) 4.95s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
Total Tes 3 Tes Salah 3 Total Biaya $0.041 Waktu respons (rata-rata) 4.99s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
Total Tes 3 Tes Salah 1 Total Biaya $0.642 Waktu respons (rata-rata) 5.24s
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
Total Tes 3 Tes Salah 3 Total Biaya $0.009 Waktu respons (rata-rata) 5.50s
#173	Mistral Small 4 medium	Mistral	5.3	5.1	$0.096	1/3	6.11s
Total Tes 3 Tes Salah 2 Total Biaya $0.096 Waktu respons (rata-rata) 6.11s
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
Total Tes 3 Tes Salah 3 Total Biaya $0.008 Waktu respons (rata-rata) 6.23s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
Total Tes 3 Tes Salah 3 Total Biaya $0.067 Waktu respons (rata-rata) 6.24s
#82	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
Total Tes 3 Tes Salah 3 Total Biaya $0.093 Waktu respons (rata-rata) 6.48s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)