Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

Grok 4.5 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah412 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

210/210

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#12	Grok 4.5 high	X AI	3.6	8.9	$1.707	0/3	332.1s
Total Tes 3 Tes Salah 3 Total Biaya $1.707 Waktu respons (rata-rata) 332.1s
#16	Muse Spark 1.1 medium	Meta	3.5	8.6	$1.357	0/3	71.4s
Total Tes 3 Tes Salah 3 Total Biaya $1.357 Waktu respons (rata-rata) 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	2.9	8.4	$1.143	0/3	95.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.143 Waktu respons (rata-rata) 95.9s
#20	Grok 4.5 low	X AI	3.0	8.4	$0.935	0/3	72.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.935 Waktu respons (rata-rata) 72.6s
#22	Grok 4.5 medium	X AI	2.9	8.3	$1.928	0/3	198.9s
Total Tes 3 Tes Salah 3 Total Biaya $1.928 Waktu respons (rata-rata) 198.9s
#24	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
Total Tes 3 Tes Salah 3 Total Biaya $0.647 Waktu respons (rata-rata) 29.7s
#26	GPT-5 Mini medium	OpenAI	3.6	8.1	$0.237	0/3	44.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.237 Waktu respons (rata-rata) 44.6s
#27	Muse Spark 1.1 high	Meta	3.5	8.1	$1.694	0/3	67.4s
Total Tes 3 Tes Salah 3 Total Biaya $1.694 Waktu respons (rata-rata) 67.4s
#31	GLM 5.2 high	Z.ai	3.7	8.0	$0.970	0/3	74.0s
Total Tes 3 Tes Salah 3 Total Biaya $0.970 Waktu respons (rata-rata) 74.0s
#36	Qwen3.7 Plus medium	Qwen	3.6	7.9	$0.267	0/3	45.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.267 Waktu respons (rata-rata) 45.3s
#37	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.405 Waktu respons (rata-rata) 29.6s
#38	GLM 5.2 medium	Z.ai	4.1	7.8	$0.222	0/3	45.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.222 Waktu respons (rata-rata) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
Total Tes 3 Tes Salah 3 Total Biaya $2.057 Waktu respons (rata-rata) 0ms
#42	GLM 5 medium	Z.ai	3.5	7.7	$0.307	0/3	0ms
Total Tes 3 Tes Salah 3 Total Biaya $0.307 Waktu respons (rata-rata) 0ms
#43	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$3.059	0/3	83.4s
Total Tes 3 Tes Salah 3 Total Biaya $3.059 Waktu respons (rata-rata) 83.4s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)