Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

Grok 4.5 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah412 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

210/210

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#45	DeepSeek V4 Flash high	DeepSeek	4.1	7.7	$0.042	0/3	100.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.042 Waktu respons (rata-rata) 100.3s
#46	DeepSeek V4 Pro high	DeepSeek	3.6	7.7	$0.200	0/3	151.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.200 Waktu respons (rata-rata) 151.5s
#49	GLM 5 Turbo medium	Z.ai	2.9	7.6	$0.323	0/3	71.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.323 Waktu respons (rata-rata) 71.1s
#51	Nemotron 3 Ultra medium	NVIDIA	3.5	7.5	$0.774	0/3	24.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.774 Waktu respons (rata-rata) 24.9s
#54	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.571 Waktu respons (rata-rata) 13.0s
#56	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.756 Waktu respons (rata-rata) 65.3s
#60	LongCat 2.0 medium	Meituan	2.9	7.4	$0.478	0/3	339.9s
Total Tes 3 Tes Salah 3 Total Biaya $0.478 Waktu respons (rata-rata) 339.9s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.387 Waktu respons (rata-rata) 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
Total Tes 3 Tes Salah 3 Total Biaya $0.115 Waktu respons (rata-rata) 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
Total Tes 3 Tes Salah 3 Total Biaya $0.117 Waktu respons (rata-rata) 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.482 Waktu respons (rata-rata) 35.3s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.317 Waktu respons (rata-rata) 53.1s
#71	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
Total Tes 3 Tes Salah 3 Total Biaya $0.106 Waktu respons (rata-rata) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
Total Tes 3 Tes Salah 3 Total Biaya $1.046 Waktu respons (rata-rata) 63.4s
#76	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.078 Waktu respons (rata-rata) 24.3s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)