Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Metrik ↑.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

GLM 5 Turbo 2.9

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah412 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

210/210

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#49	GLM 5 Turbo medium	Z.ai	2.9	7.6	$0.323	0/3	71.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.323 Waktu respons (rata-rata) 71.1s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.482 Waktu respons (rata-rata) 35.3s
#76	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.078 Waktu respons (rata-rata) 24.3s
#95	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.089 Waktu respons (rata-rata) 23.6s
#121	gpt-oss-120b medium	OpenAI	2.9	6.1	$0.019	0/3	50.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.019 Waktu respons (rata-rata) 50.9s
#140	Nemotron 3 Super medium	NVIDIA	2.9	5.7	$0.050	0/3	16.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.050 Waktu respons (rata-rata) 16.2s
#180	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.041	0/3	926ms
Total Tes 3 Tes Salah 3 Total Biaya $0.041 Waktu respons (rata-rata) 926ms
#188	Cobuddy medium	Baidu	2.9	4.7	$0.000	0/3	128.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 128.2s
#190	MiniMax M2.5 medium	Minimax	2.9	4.6	$0.340	0/3	237.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.340 Waktu respons (rata-rata) 237.3s
#19	Qwen3.6 Max Preview medium	Qwen	2.9	8.4	$1.143	0/3	95.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.143 Waktu respons (rata-rata) 95.9s
#22	Grok 4.5 medium	X AI	2.9	8.3	$1.928	0/3	198.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.928 Waktu respons (rata-rata) 198.9s
#24	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
Total Tes 3 Tes Salah 3 Total Biaya $0.647 Waktu respons (rata-rata) 29.7s
#37	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.405 Waktu respons (rata-rata) 29.6s
#40	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
Total Tes 3 Tes Salah 3 Total Biaya $2.057 Waktu respons (rata-rata) 0ms
#60	LongCat 2.0 medium	Meituan	2.9	7.4	$0.478	0/3	339.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.478 Waktu respons (rata-rata) 339.9s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)