Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↑.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

Grok 4.5 3.6

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah421 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

216/216

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#183	Nemotron 3 Super none	NVIDIA	3.6	4.9	$0.008	0/3	6.23s
Total Tes 3 Tes Salah 3 Total Biaya $0.008 Waktu respons (rata-rata) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/3	4.95s
Total Tes 3 Tes Salah 3 Total Biaya $0.002 Waktu respons (rata-rata) 4.95s
#186	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.041	0/3	926ms
Total Tes 3 Tes Salah 3 Total Biaya $0.041 Waktu respons (rata-rata) 926ms
#187	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
Total Tes 3 Tes Salah 3 Total Biaya $5.599 Waktu respons (rata-rata) 24.7s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
Total Tes 3 Tes Salah 3 Total Biaya $0.067 Waktu respons (rata-rata) 6.24s
#190	Hunter Alpha medium	OpenRouter	3.0	4.7	$0.000	0/3	10.5s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 10.5s
#194	Cobuddy medium	Baidu	2.9	4.7	$0.000	0/3	128.2s
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 128.2s
#196	MiniMax M2.5 medium	Minimax	2.9	4.6	$0.340	0/3	237.3s
Total Tes 3 Tes Salah 3 Total Biaya $0.340 Waktu respons (rata-rata) 237.3s
#197	Grok 4.20 Beta none	X AI	3.0	4.4	$0.087	0/3	611ms
Total Tes 3 Tes Salah 3 Total Biaya $0.087 Waktu respons (rata-rata) 611ms
#198	Laguna M.1 none	Poolside	3.6	4.4	$0.009	0/3	5.50s
Total Tes 3 Tes Salah 3 Total Biaya $0.009 Waktu respons (rata-rata) 5.50s
#199	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/3	927ms
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 927ms
#200	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.166	0/3	174.6s
Total Tes 3 Tes Salah 3 Total Biaya $0.166 Waktu respons (rata-rata) 174.6s
#201	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/3	925ms
Total Tes 3 Tes Salah 3 Total Biaya $0.000 Waktu respons (rata-rata) 925ms
#203	Grok 4.20 none	X AI	3.0	4.1	$0.057	0/3	687ms
Total Tes 3 Tes Salah 3 Total Biaya $0.057 Waktu respons (rata-rata) 687ms
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
Total Tes 3 Tes Salah 3 Total Biaya $0.015 Waktu respons (rata-rata) 11.1s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)