Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

Gemini 3.6 Flash 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah421 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

216/216

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#160	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.068	1/3	877ms
Total Tes 3 Tes Salah 2 Total Biaya $0.068 Waktu respons (rata-rata) 877ms
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
Total Tes 3 Tes Salah 2 Total Biaya $0.127 Waktu respons (rata-rata) 4.38s
#163	Mimo V2 Omni none	Xiaomi	5.3	5.5	$0.021	1/3	2.10s
Total Tes 3 Tes Salah 2 Total Biaya $0.021 Waktu respons (rata-rata) 2.10s
#166	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
Total Tes 3 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	5.3	5.3	$2.310	1/3	127.6s
Total Tes 3 Tes Salah 2 Total Biaya $2.310 Waktu respons (rata-rata) 127.6s
#170	Inkling none	Thinkingmachines	5.3	5.2	$0.147	1/3	1.45s
Total Tes 3 Tes Salah 2 Total Biaya $0.147 Waktu respons (rata-rata) 1.45s
#171	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
Total Tes 3 Tes Salah 2 Total Biaya $0.022 Waktu respons (rata-rata) 367ms
#172	Qwen3 Coder Next none	Qwen	5.3	5.1	$0.025	1/3	962ms
Total Tes 3 Tes Salah 2 Total Biaya $0.025 Waktu respons (rata-rata) 962ms
#176	GLM 5 Turbo none	Z.ai	5.3	5.1	$0.047	1/3	1.97s
Total Tes 3 Tes Salah 2 Total Biaya $0.047 Waktu respons (rata-rata) 1.97s
#189	Trinity Large Preview none	Arcee AI	5.3	4.8	$0.008	1/3	877ms
Total Tes 3 Tes Salah 2 Total Biaya $0.008 Waktu respons (rata-rata) 877ms
#193	Qwen3 Coder Next medium	Qwen	5.3	4.7	$0.032	1/3	638ms
Total Tes 3 Tes Salah 2 Total Biaya $0.032 Waktu respons (rata-rata) 638ms
#202	Hunter Alpha none	OpenRouter	5.3	4.2	$0.000	1/3	2.33s
Total Tes 3 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 2.33s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
Total Tes 3 Tes Salah 2 Total Biaya $0.004 Waktu respons (rata-rata) 371ms
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
Total Tes 3 Tes Salah 2 Total Biaya $0.971 Waktu respons (rata-rata) 29.1s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
Total Tes 3 Tes Salah 2 Total Biaya $1.234 Waktu respons (rata-rata) 39.5s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)